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数据 库 系统 实现 第 版 


本 书 是 关于 数据 库 系 统 实现 方面 内 容 最 为 全 面 的 著作 之 一 ， 是 美国 斯 坦 福 大 学 计算 机 科学 专业 数据 库 
系列 课程 第 二 门 课程 的 指定 教材 。 书 中 从 数据 库 实 现 者 的 角度 对 数据 库 系统 实现 原理 进行 了 深入 前述 ， 并 
具体 讨论 了 数据 库 管 理 系统 的 三 个 主要 成 分 一 一 存储 管理 器 、 查 询 处 理 器 和 事务 管理 器 的 实现 技术 。 斯 坦 
福 大 学 计算 机 科学 专业 数据 库 系 列 课程 第 一 门 课程 的 内 容 包 括 数据 库 设 计 和 数据 库 编 程 ， 本 书 的 后 两 位 作 
Jeffrey D. UlIman 和 Jennifer Widom 为 该 课程 编写 的 教材 《数据 库 系 统 基础 教程 》 (A First Course in 
Database Systems) 第 3 版 的 中 文 翻译 版 和 英文 影印 版 已 由 机 械 工业 出 版 社 出 版 。 

本 书 内 容 深入 且 全 面 ， 技 术 实 用 且 先 进 ， 叙 述 深入 浅 出 ， 是 一 本 难得 的 高 层次 的 教材 ， 适 合作 为 高 等 
院 校 计算 机 专业 研究 生 的 教材 或 本 科 生 的 教学 参考 书 ， 也 适合 作为 从 事 相 关 研 究 或 开发 工作 的 专业 技术 人 
员 的 高 级 参考 资料 。 
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系 的 Leonard Bosack 和 Sandra 
Lerner 教 授 。 他 在 数据 库 系 统 、 分 布 式 系统 和 数字 图 书馆 领域 中 发 表 了 大 量 论文 ， 研究 GMS 
兴趣 包括 分 布 式 计算 系统 、 数 据 库 系 统 和 数字 图 书馆 。 他 是 ACM 会 士 、 美 国 艺术 与 科学 Be 
院 会 士 和 美国 国家 工程 院 成 员 。 他 在 1999 年 获得 了 ACM SIGMOD 创 新 奖 。 RP 


斯 坦 福 大 学 计算 机 科学 与 电子 工程 系 Stanford 
Jeffrey D. Ullman W. Ascherman 教 授 ， 数 据 库 技术 专家 。 他 独 


立 或 与 人 合作 出 版 了 15 本 著作 ， 发 表 了 170 多 篇 技术 论文 ， 研 究 兴趣 包括 数据 库 理论 、 
数据 库 集 成 、 数 据 挖 掘 和 利用 信息 基础 设施 进行 教育 。 他 是 美国 国家 工程 院 成 员 ， 曾 获 
得 Knuth 奖 、SIGMOD 贡 献 奖 、Karlstrom 杰 出 教育 家 奖 和 Edgar F. Codd 发 明 奖 。 


1 ] 美国 康 奈 尔 大 学 计算 机 科学 博士 ， 现 为 斯 坦 福 大 
Jennifer Widom 学 计算 机 科学 与 电子 工程 系 教授 ， 研 究 兴趣 包括 ğ 


=> m} DH T 





半 结 构 化 数据 的 数据 库 系统 和 XML、 数 据 仓库 以 及 主动 数据 库 系统 。 她 是 ACM 会 士 、 
Guggenheim 会 士 和 美国 国家 工程 院 成 员 ， 并 且 是 多 个 编辑 委员 会 、 程 序 委员 会 和 顾问 
委员 会 的 成 员 。 她 在 2007 年 获得 了 ACM SIGMOD Edgar F. Codd 发 明 奖 。 
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本 书 是 斯 坦 福 大 学 计算 机 科学 专业 数据 库 系列 课程 第 二 门 课 的 教科 书 。 书 中 对 数据 库 系 统 实现 原理 进 
行 了 深入 阐述 ， 并 具体 讨论 了 数据 库 管 理 系统 的 三 个 主要 成 分 一 存储 管理 器 、 查 询 处 理 器 和 事务 管理 器 
的 实现 技术 。 此 外 ， 第 2 版 充分 反映 了 数据 管理 技术 的 新 进展 ， 对 内 容 进行 了 扩充 ， 除 了 在 第 1 版 中 原 有 
的 “信息 集成 ”一 章 (第 10 章 ) 中 加 入 了 新 的 内 容 外 ， 还 增加 了 两 个 全 新 的 章 :“ 数 据 挖 据 ”( 第 11 章 ) 
和 “数据 库 系 统 与 互联 网 ”( 第 12 章 ) 。 

本 书 适合 作为 高 等 院 校 计算 机 专业 研究 生 的 教材 或 本 科 生 的 教学 参考 书 ， 也 适合 作为 从 事 相 关 研 究 或 
开发 工作 的 专业 技术 人 员 的 高 级 参考 资料 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈 
出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 
许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 划 了 研究 的 
范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 
减退 。 : 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 过 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻 重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 
年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 
我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 
的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 避 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill， 
Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 
现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis 
Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, Wil- 
liam Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 
以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 
了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 
的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 
的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品 
种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 
“经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 
权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 教 
育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 
的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 欢 迎 老 师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 
指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ; www. hzbook. com 
电子 邮件 ， hzjsj@ hzbook. com 
联系 电话 : (010) 88379604 


联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 
， 邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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随 着 计算 机 硬件 、 软 件 技术 的 飞速 发 展 和 计算 机 系统 在 各 行 各 业 的 广泛 应 用 ， 数 据 已 经 成 
为 各 种 机 构 的 宝贵 资源 ， 数 据 库 系统 对 于 当今 科研 部 门 、 政 府 机 关 、 企 事业 单位 等 来 说 都 是 至 关 
重要 的 。 而 数据 库 系 统 中 的 核心 软件 是 数据 库 管理 系统 (DBMS) 。DBMS 用 于 高 效 地 创建 和 存储 
大 量 的 数据 ， 并 对 数据 进行 有 效 的 管理 、 处 理 和 维护 ， 是 数据 库 专 家 和 技术 人 员 数 十 年 研究 开发 
的 结果 ， 是 当前 最 复杂 的 系统 软件 之 一 。 要 深入 掌握 数据 库 系统 的 原理 和 技术 ， 进 而 从 事 数据 库 
管理 软件 和 工具 的 开发 ， 必 须 学 习 和 研究 数据 库 管 理 系统 实现 技术 。 要 深入 了 解数 据 库 系统 的 
内 部 结构 ， 以 开发 出 高 效 的 数据 库 应 用 系统 ， 也 需要 学 习 和 研究 数据 库 管理 系统 实现 技术 。 

Hector Garcia-Molina, Jeffrey D. Ullman 和 Jennifer Widom 是 斯 坦 福 大 学 著名 的 计算 机 科学 家 ， 
多 年 来 他 们 在 数据 库 系 统领 域 中 做 了 大 量 的 开创 性 工作 ， 由 他 们 撰写 的 《数据 库 系统 实现 》 一 
书 是 关于 数据 库 系 统 实现 方面 内 容 最 为 全 面 的 著述 之 一 。 我 们 于 2000 年 将 《数据 库 系统 实现 》 
的 第 1 版 译 成 中 文 ， 国 内 许多 大 学 采用 它 作 为 研究 生 数 据 库 课程 的 教材 或 主要 教学 参考 书 ， 收 到 
了 良好 的 效果 。 

现在 我 们 又 翻译 了 《数据 库 系统 实现 》 第 2 版 。 第 2 版 保持 了 第 1 版 的 总 体 风格 ， 首 先 对 数 
据 库 系统 实现 原理 进行 了 深入 阐述 ， 并 具体 讨论 了 数据 库 管 理 系 统 的 三 个 主要 成 分 一 一 存储 管 
理 器 、 查 询 处 理 器 和 事务 管理 器 的 实现 技术 。 与 第 1 版 相 比 ,第 2 版 对 于 数据 存储 和 索引 结构 的 
阐述 进行 了 适当 的 压缩 ,分 别 将 原来 的 两 章 合并 为 一 章 ; 另外 ， 增 加 了 一 章 “ 并 行 与 分 布 式 数 
据 库 ”( 第 9 章 ) ， 其 中 包括 了 第 1 版 中 分 散在 查询 处 理 和 事务 管理 的 相关 章节 中 的 内 容 ， 并 增 
加 了 有 关 分 布 式 查询 执行 的 一 些 新 内 容 ， 例 如 ，map-reduce 并 行 架构 、P2P 数据 库 以 及 分 布 式 散 
列 的 实现 等 。 同 时 ， 第 2 版 充分 反映 了 数据 管理 技术 的 新 进展 ， 对 内 容 进 行 了 扩充 ,除了 在 第 1 
版 中 原 有 的 “信息 集成 ”一 章 (第 10 章 ) 中 加 入 了 新 的 内 容 外 ， 还 增加 了 两 个 全 新 的 章 : “ 数 
据 挖 据 ”( 第 11 章 ) 和 “数据 库 系 统 与 互联 网 ”( 第 12 章 ) 。“ 数 据 挖 据 ” 一 章 中 包含 了 关联 规 
则 与 频繁 项 集 控 掘 技 术 ， 从 一 个 非常 大 的 数据 库 或 Web 页 面 集 合 中 发 现 “ 相 似 ” 的 项 的 “最 小 
散 列 ”和 “局 部 敏感 散 列 ”等 关键 技术 ， 以 及 高 维 空间 中 大 规模 数据 的 聚 侯 问题 等 。“ 数 据 库 系 
统 与 互联 网 ”一 章 中 重点 阑 述 了 与 互联 网 相关 的 两 个 方面 的 数据 库 技术 : Web 搜索 引擎 及 其 
PageRank 算法 ， 流 数据 模型 以 及 管理 数据 流 形式 的 大 量 数据 所 需 的 技术 。 

我 们 认为 这 本 书 既 适合 作为 高 等 院 校 计算 机 专业 研究 生 的 教材 或 本 科 生 的 教学 参考 书 ， 又 
适合 作为 从 事 相 关 研 究 或 开发 工作 的 专业 技术 人 员 的 高 级 参考 资料 。 

杨 冬青 全 面 组 织 了 本 书 的 翻译 ， 吴 愈 青 、 包 小 源 、 唐 志 渭 在 本 书 的 翻译 和 审 校 中 做 了 大 量 的 
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在 斯 坦 福 大 学 ， 因 为 实行 的 是 一 年 四 学 期 制 ， 所 以 数据 库 引 论 课 被 分 为 两 门 课 程 。 第 一 门 课 
程 是 CS145 ， 该 课程 只 要 求学 生 学 会 使 用 数据 库 系 统 ， 而 不 要 求知 道 DBMS 实现 的 内 容 。CS145 
是 CS245 的 预 修 课 ，CS245 介绍 DBMS 实现 。 学 生 若 想 进 一 步 学 习 数 据 库 方面 的 课程 ， 可 以 学 习 
C5345 (此 课 是 理论 课 ) CS346 (此 课 是 DBMS 实现 实验 课 ) 以 及 CS347 课程 (此 课 介 绍 事务 
处 理 及 分 布 式 数 据 库 ) 。 - 

从 1997 年 开始 ， 我 们 已 经 出 版 了 两 本 配套 教材 : (EE RAEM) OEA CS145 课程 
编写 的 , 《数据 库 系 统 实 现 》 是 为 CS245 课程 以 及 部 分 CS346 课程 编写 的 。 本 书 就 是 《数据 库 系 
统 实现 》 的 最 新 版 一 一 第 2 版 。 

第 2 版 保持 了 第 1 版 的 总 体 风格 ， 但 对 于 数据 存储 和 索引 结构 的 阐述 进行 了 适当 的 压缩 ， 分 
别 将 原来 的 两 章 合并 为 一 章 ; 另外 ， 增 加 了 一 章 “ 并 行 与 分 布 式 数据 库 ” (第 9 章 ) ， 其 中 包括 
了 第 1 版 中 分 散在 查询 处 理 和 事务 管理 的 相关 章节 中 的 内 容 ， 并 增加 了 有 关 分 布 式 查询 执行 的 一 
些 新 内 容 。 同 时 ， 第 2 版 充分 反映 了 数据 管理 技术 的 新 进展 ， 对 内 容 进 行 了 扩充 ， 除了 在 第 1 版 
中 原 有 的 “信息 集成 ”一 章 (第 10 章 ) 中 加 入 了 新 的 内 容 外 ， 还 增加 了 两 个 全 新 的 章 : “数据 
挖掘 ”( 第 11 章 ) 和 “数据 库 系统 与 互联 网 ”( 第 12 章 ) 。 


预备 知识 

学 生 一 般 不 会 在 大 学 的 第 一 学 年 选修 数据 库 系 统 实现 课程 ， 所 以 本 书 读者 应 具有 广泛 的 计 
算 机 科学 背景 知识 。 我 们 假定 读者 已 经 学 过 数据 库 语言 ， 特 别 是 SQL。 读 者 最 好 了 解 关 系 代数 ， 
并 且 熟 悉 基 本 的 数据 结构 。 同 样 ， 关 于 文件 系统 和 操作 系统 的 知识 也 是 很 有 用 的 。 
习题 

本 书 几乎 在 每 一 节 都 包括 大 量 的 练习 ， 我 们 用 感叹 号 对 难题 做 了 标记 ， 对 最 难 的 习题 用 双 
感叹 号 做 了 标记 。 
网 上 支持 


本 书 的 网 址 是 : 
http; //infolab. stanford. edu/ ~ ullman/fedb. html 


该 网 站 包括 勘误 表 及 支持 材料 。 
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第 1 章 DBMS 系统 概述 


数据 库 对 于 当今 的 任何 部 门 都 是 至 关 重 要 的 。 无 论 何 时 访问 一 个 主要 的 网 站 一 一 Yahoo!、 
Amazon. com 或 者 数 以 千 计 的 提供 信息 的 小 网 站 ， 总 有 一 个 数据 库 在 幕后 服务 ， 提 供 你 所 需要 的 
信息 。 公 司 用 数据 库 来 维护 其 所 有 重要 的 记录 。 在 许多 科学 研究 的 核心 中 也 同样 需要 数据 库 。 天 
文学 家 、 人 类 学 研究 人 员 、 探 索 蛋 白质 的 医药 特性 的 生物 化 学 家 以 及 许多 其 他 的 科学 研究 人 员 
收集 到 的 数据 也 是 用 数据 库 表 示 的 。 

数据 库 的 能 力 来 源 于 一 个 知识 和 技术 的 结合 体 ， 这 是 数 十 年 研究 开发 的 结果 ， 并 且 已 经 崔 
人 到 专门 的 软件 中 ， 这 个 软件 称 作 数据 库 管理 系统 或 DBMS， 或 更 通俗 地 称 为 “数据 库 系 统 ”。 
DBMS 是 一 个 强 有 力 的 工具 ， 用 于 高 效 地 创建 和 管理 大 量 的 数据 ， 并 使 得 数据 能 够 安全 地 长 期 保 
Fo DBMS 是 当前 最 复杂 的 软件 系统 之 一 。 在 本 书 中 ， 我 们 主要 学 习 数 据 库 管 理 系统 实现 技术 ， 
还 将 探讨 当前 数据 库 系 统 研究 的 一 些 新 课题 。 


1.1 数据 库 系 统 的 发 展 


什么 是 数据 库 ? 本 质 上 讲 ， 数 据 库 就 是 信息 的 集合 ， 它 可 以 存在 很 长 时 间 ， 往 往 是 很 多 年 。 
一 般 来 讲 ,， “数据 库 ” 这 个 词 指 的 是 由 数据 库 管理 系统 管理 的 数据 的 集合 。 数 据 库 管理 系统 将 
满足 : 

1. 允许 用 户 使 用 专门 的 数据 定义 语言 来 创建 新 的 数据 库 并 指定 其 模式 (数据 的 逻辑 结构 ) 。 

2. 给 予 用 户 使 用 适当 的 语言 来 查询 数据 (“查询 ”是 数据 库 术 语 ， 指 关于 数据 的 问题 ) 和 修改 
数据 的 能 力 ， 这 种 语言 通常 称 为 查询 语言 (query language) 或 数据 操纵 语言 (data-manipulation lan- 
guage) 。 

3. 支持 对 非常 大 量 的 数据 (许多 TB 或 者 更 多 ) 长 期 地 进行 存储 ， 人 允许 高 效 地 存 取 数据 以 进行 
查询 和 数据 库 修改 。 

4. 使 数据 具有 持久 性 (durability ) ， 即 能 够 从 故障 、 多 种 类 型 的 错误 或 者 故意 滥用 中 进行 
恢复 。 

5. 控制 多 个 用 户 同 时 对 数据 进行 访问 ， 不 允许 用 户 间 有 不 恰当 的 相互 影响 ( 称 作 孤 立 性 (isola- 
tion) ) ， 并 且 不 会 发 生 在 数据 上 进行 了 部 分 的 而 不 是 完整 的 操作 的 情况 ( 称 作 原子 性 (atomicity) ) 。 


1.1.1 早期 的 数据 库 管 理 系统 

第 一 个 商用 数据 库 管理 系统 产生 于 20 世纪 60 年 代 末 。 这 些 系统 是 由 文件 系统 演变 而 来 的 ， 
提供 了 对 上 述 第 (3) 条 的 部 分 支持 : 文件 系统 可 以 长 时 间 地 存储 数据 ， 并 且 人 允许 存储 大 量 的 数 
据 。 但 是 ,文件 系统 并 不 能 保证 数据 不 丢失 ， 如 果 没 有 备份 的 话 ; 而 且 它们 也 不 支持 对 数据 项 的 
高 效 存 取 ， 如 果 不 知道 它 在 特定 的 文件 里 的 存储 位 置 的 话 。 

文件 系统 不 直接 支持 第 (2) 条 ， 即 针对 文件 中 数据 的 查询 语言 。 它 们 对 第 (1) 条 (数据 模式 ) 
的 支持 仅 限于 创建 文件 的 目录 结构 。 第 (4) 条 并 不 总 被 文件 系统 支持 ， 你 可 能 会 丢失 并 没有 备份 
的 数据 。 最 后 ， 文 件 系统 也 不 满足 第 (5 ) 条。 虽然 它们 允许 几 个 用 户 或 进程 并 发 地 访问 文件 ， 但 
文件 系统 一 般 并 不 阻止 两 个 用 户 同 时 修改 同一 个 文件 ， 从 而 导致 一 个 用 户 的 修改 不 能 出 现在 文 
件 中 。 
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在 DBMS 最 初 的 重要 的 应 用 中 ， 数 据 由 许多 小 的 数据 项 组 成 ， 对 数据 有 许多 查询 或 修改 。 这 
些 应 用 的 实例 如 下 : 

1. 银行 系统 ， 维 护 账户 和 确保 系统 故障 时 并 不 引起 钱 的 丢失 。 

2. 航空 公司 订 票 系统 ， 这 些 系 统 就 像 银行 系统 一 样 ， 要 求 确保 数据 不 会 丢失 ,并 且 必 须 能 
接受 顾客 大 量 的 小 操作 。 

3. 企业 记录 系统 ,雇员 和 税务 记录 、 财 产 清单 、 销 售 记 录 和 大 量 的 其 他 类 型 的 信息 ， 大 部 
分 是 很 关键 的 。 

早期 的 DBMS 要 求 程 序 员 直接 面 对 数 据 的 存储 格式 。 这 些 数 据 库 系统 用 一 些 不 同 的 数据 
模型 来 描述 信息 在 数据 库 中 的 结构 ， 其 中 主要 有 “层次 型 的 ”或 基于 树 的 模型 和 基于 图 的 “网 
状 ” 模 型 。 后 者 在 20 世纪 60 年 代 末 通过 了 CODASYL( 数 据 系统 和 语言 委员 会 ) 报告 ， 从 而 实 
现 标 准 化 。 

这 些 早 期 的 模型 和 系统 有 一 个 问题 ， 就 是 它们 并 不 支持 高 级 查询 语言 。 例 如 ，CODASYL 查 
询 语言 具有 人 允许 用 户 通过 数据 元 素 间 的 指针 从 一 个 数据 元 素 跳 到 另 一 个 数据 元 素 的 语句 。 即 使 
对 于 非常 简单 的 查询 ， 也 需要 相当 大 的 工作 量 来 写 这 样 的 程序 。 


1. 1.2 关系 数据 库 系 统 

在 1970 年 Ted Codd 发 表 了 一 篇 著名 的 论文 后 ， 数 据 库 系统 发 生 了 显著 的 变化 。Codd 认为 
数据 库 系 统 应 该 呈现 给 用 户 组 织 成 叫做 “关系 ”的 表 的 数据 。 在 幕后 ， 应 该 有 一 个 复杂 的 数据 结 
构 ， 允 许 对 各 式 各 样 的 查询 进行 快速 响应 。 但 是 ， 与 早期 数据 库 系 统 的 程序 员 不 同 的 是 ， 关 系数 
据 库 的 程序 员 并 不 需要 关心 存储 结构 。 查 询 可 以 用 很 高 级 的 语言 来 表达 ， 这 样 可 以 极 大 地 提高 
数据 库 程序 员 的 效率 。 我 们 将 在 这 本 书 的 大 部 分 章节 涵盖 数据 库 系统 的 关系 模型 ， 并 将 广泛 涵 
盖 SQL( 结 构 化 查询 语言 ) 这 一 基于 关系 模型 的 最 重要 的 查询 语言 。 

到 1990 年 ， 关 系数 据 库 系统 已 经 成 为 标准 。 然 而 数据 库 领域 一 直 在 发 展 ， 而 且 针 对 数据 管 
理 的 新 的 问题 和 方法 也 不 断 浮 出 水 面 。 面 向 对 象 的 特性 渗入 了 关系 模型 。 一 些 大 型 数据 库 已 不 
再 使 用 关系 方法 组 织 。 后 续 部 分 将 讨论 数据 库 系统 的 一 些 新 趋势 。 


1. 1.3 越 来 越 小 的 系统 

最 初 ，DBMS 是 庞大 的 、 昂 贵 的 、 在 大 型 计算 机 上 运行 的 软件 系统 。 因 为 保存 吉 字 节 (GB) 
的 数据 需要 大 的 计算 机 系统 ， 所 以 大 容量 是 必需 的 。 今 天 ， 几 百 GB 的 数据 都 可 以 放 在 单个 磁盘 
上 ， 在 个 人 计算 机 上 运行 DBMS 已 无 任何 问题 。 所 以 ， 基 于 关系 模型 的 数据 库 系 统 甚至 可 以 在 非 
常 小 的 机 器 上 运行 ， 而 且 它们 也 开始 作为 一 种 计算 机 应 用 的 常见 工具 出 现 ， 如 辐 电子 表格 和 文 
字 处 理 器 一 样 。 

另 一 个 重要 的 趋势 是 文档 的 使 用 ， 经 常 使 用 XML( 可 扩展 的 建 模 语言 ) 来 标记 。 大 量 小 文档 
的 集合 可 以 作为 一 个 数据 库 ， 而 查询 和 操作 它们 的 方法 与 关系 数据 库 系统 不 同 。 


1.1.4 越 来 越 大 的 系统 

另 一 方面 ， 吉 字 节 也 不 再 是 大 的 数据 了 。 公 司 数据 库 系统 经 常 存储 太 字 节 (TB，10*B) 数 
据 。 还 有 许多 数据 库 的 数据 量 达 到 拍 字 节 (PB，10”B) ， 并 把 它们 都 提供 给 用 户 。 一 些 重要 的 例 
子 如 下 : 

1. 卫星 向 下 发 送 PB 的 信息 ， 存 储 在 特殊 的 系统 中 。 
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2. 一 张 图 片 比 1000 个 字 的 存储 空间 大 。 只 用 SKB 或 6kB 可 以 存储 1000 个 字 ， 而 存储 一 张 
图 片 需要 更 大 的 空间 。 一 些 像 Flick 这 样 的 信息 库存 储 了 数 以 百 万 计 的 图 片 ， 并 且 提供 对 这 些 图 
片 的 搜索 。 甚 至 像 Amazon 这 样 的 数据 库 也 存 有 数 以 百 万 计 的 产品 图 片 。 

3， 如 果 静 态 的 图 片 耗费 空间 ， 电 影 则 耗费 更 多 。 一 小 时 的 视频 需要 至 少 1GB。 像 YouTube 
这 样 的 网 站 拥有 数 十 万 或 是 上 百 万 的 电影 ， 并 且 能 轻易 地 提供 它们 。 

4. P2P 文件 共享 系统 使 用 普通 计算 机 构成 的 大 的 网 络 来 存储 和 发 布 各 种 各 样 的 数据 。 虽 然 
网 络 中 每 个 节点 可 能 只 存储 几 百 GB 的 数据 ， 但 它们 所 存储 的 数据 合 起 来 非常 巨大 。 


1.1.5 信息 集成 

在 很 大 的 程度 上 ， 建 立 和 维护 数据 这 个 老 问 题 已 经 变 成 了 信息 集成 的 问题 : 把 许多 相关 的 
数据 库 所 包含 的 信息 连接 成 一 个 整体 。 例 如 ， 一 个 大 公司 有 许多 分 部 。 每 个 分 部 可 能 都 建 有 各 自 
独立 的 产品 记录 或 员工 记录 的 数据 库 。 这 些 分 部 中 可 能 有 一 些 曾 经 是 独立 的 公司 ， 它 们 有 自己 
做 事情 的 方式 。 这 些 分 部 可 能 会 用 不 同 的 DBMS 和 不 同 的 结构 来 存储 信息 ， 可 能 会 用 不 同 的 术语 
来 表示 同一 件 事 或 用 相同 的 术语 来 表示 不 同 的 事 。 更 糟糕 的 是 ， 因 为 存在 使 用 这 些 不 同 的 数据 
库 的 遗留 应 用 程序 ， 使 得 几乎 不 可 能 废弃 这 些 数据 库 。 

结果 是 ， 在 现存 数据 库 上 建立 结构 体 变 得 越 来 越 必 要 ， 其 目的 是 把 分 布 在 这 些 数据 库 中 的 
信息 集成 起 来 。 一 种 常用 的 方法 是 建立 数据 仓库 (data warehouse) ， 将 众多 的 遗留 数据 库 中 的 信 
息 进 行 适当 的 翻译 ， 周 期 性 地 拷贝 到 一 个 中 心 数据 库 中 。 另 一 种 方法 是 实现 一 个 Mediator 或 “中 
间 件 ” ， 它 的 功能 是 支持 各 个 不 同 数据 库 中 数据 的 一 个 集成 的 模型 ， 并 在 这 个 模型 和 每 个 数据 库 
所 使 用 的 实际 模型 之 间 进 行 翻译 。 


1.2 ”数据库 管理 系统 概述 


在 图 1-1 中 ， 我 们 可 以 看 到 一 个 完整 的 DBMS 的 轮廓 。 单 线 框 表示 系统 成 分 ， 双 线 框 表示 内 
存 中 的 数据 结构 。 实 线 指明 控制 和 数据 流 ， 虚 线 指明 仅 是 数据 流 。 由 于 该 图 很 复杂 ， 我 们 分 几 个 
步骤 来 考虑 它 的 细节 。 首 先 ， 我 们 说 对 于 DBMS 有 两 个 不 同 的 命令 来 源 : 

1. 普通 用 户 和 应 用 程序 ， 他 们 要 求 对 数据 进行 访问 或 修改 。 

2. 数据 库 管 理 员 (database administrator ，DBA) ， 负 责 建 立 数据 库 的 结构 或 模式 的 一 个 人 或 一 
组 人 。 


1.2.1 数据 定义 语言 命令 

第 二 类 命令 处 理 起 来 相对 比较 简单 ， 我 们 以 图 1-1 的 右上 部 分 为 始点 给 出 它 的 踪迹 。 例 如 ， 
一 个 大 学 注册 管理 数据 库 的 数据 库 管理 员 ( 或 DBA) 可 能 决定 需要 一 个 表 或 关系 ， 它 的 列 是 学 生 、 
学 生 选 的 课程 和 学 生 修 该 课程 的 成 绩 。DBA 可 能 还 决定 所 允许 的 成 绩 只 能 是 A、B、C、D 和 下 。 
此 结构 和 约束 信息 都 是 数据 库 模 式 的 一 个 部 分 。 如 图 1-1 所 示 ， 由 DBA 输入 这 些 信 息 ，DBA 需 
要 特殊 的 权限 才能 执行 模式 修改 命令 ， 因 为 这 些 命令 对 于 数据 库 会 发 生 深刻 的 影响 。 这 些 进行 
模式 修改 的 数据 定义 语言 (DDL) 命 令 由 DDL 处 理 程序 进行 分 析 ， 然 后 传 给 执行 引擎 ， 由 执行 引 
苟 经 过 索引 /文件 /记录 管理 器 去 改变 元 数据 (metadata) ， 即 数据 库 的 模式 信息 。 


1.2.2 查询 处 理 概述 


与 DBMS 的 大 部 分 交互 都 沿 着 图 1-1 左 侧 的 路 径 进 行 。 用 户 或 应 用 程序 使 用 数据 操纵 语言 
(DML) 启 动 某 个 活动 ， 该 活动 不 影响 数据 库 模 式 ， 但 是 可 能 影响 数据 库 内 容 ( 如 果 该 活动 是 一 个 
修改 命令 ) ， 或 者 会 从 数据 库 中 抽取 数据 (如 果 该 活动 是 一 个 查询 ) DML 语句 被 如 下 两 个 分 离 的 
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子 系统 处 理 。 


用 户 /应 用 数据 库 管 理 员 





村 六 
basco [enn] [one 


对 索引 、 文 件 
和 记录 的 请 求 


图 1-1 数据 库 管理 系统 成 分 


查询 响应 

由 查询 编译 器 对 查询 进行 分 析 和 优化 。 得 到 的 查询 计划 或 DBMS 为 了 回答 查询 采取 的 动作 序 
列 ， 被 传 给 执行 引擎 。 执 行 引擎 向 资源 管理 器 发 出 一 系列 对 小 的 数据 单元 (通常 是 记录 或 关系 的 
元 组 (tuple) ) 的 请 求 ， 资 源 管 理 器 掌握 着 存放 关系 的 数据 文件 、 文 件 中 的 数据 格式 和 记录 大 小 ， 
以 及 支持 对 于 数据 文件 中 的 元 素 进行 快速 查找 的 索引 文件 。 

查找 数据 的 请 求 被 传送 给 缓冲 区 管理 器 。 缓冲 区 管理 器 的 任务 是 从 持久 地 存储 数据 的 辅助 
存储 器 (磁盘 ) 中 将 数据 的 适当 部 分 取 到 主 存 的 缓冲 区 中 。 通 常 ， 缓 冲 区 和 磁盘 间 的 传输 单位 是 
页 或 “磁盘 块 ”。 

缓冲 区 管理 器 和 存储 管理 器 进行 通信 ， 以 从 磁盘 获取 数据 。 存 储 管 理 器 可 能 使 用 操作 系统 
命令 ， 但 更 通常 的 情况 是 ，DBMS 直接 发 命令 给 磁盘 控制 器 。 

事务 处 理 

事务 是 组 成 一 组 的 若干 个 查询 和 其 他 动作 ， 是 必须 作为 一 个 原子 被 孤立 地 执行 的 单位 。 任 
何 一 个 查询 或 修改 动作 自身 就 可 以 是 一 个 事务 。 另 外 ， 事 务 的 执行 必须 是 持久 的 ， 即 任何 已 完成 
的 事务 的 影响 必须 保留 下 来 ， 即 使 事务 刚 一 完成 系统 马上 就 发 生 了 某 种 故障 也 应 如 此 。 我 们 将 
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事务 处 理 器 分 成 两 个 主要 部 分 : 
1. 并 发 控制 管理 器 或 调度 器 ， 它 负责 保证 事务 的 原子 性 和 孤立 性 。 
2. 日 志和 恢复 管理 器 ， 它 负责 事务 的 持久 性 。 


12.3 主 存 和 缓冲 区 管理 器 

数据 库 中 的 数据 通常 驻 留 在 辅助 存储 器 中 ， 在 当今 的 计算 机 系统 中 , “辅助 存储 器 ?通常 就 
是 磁盘 。 然 而 ， 数 据 必 须 在 主 存储 器 中 ， 才 能 对 其 进行 有 用 的 操作 。 存 储 管 理 器 的 任务 是 控制 数 
据 在 磁盘 上 的 放置 和 在 磁盘 与 主 存 之 间 的 移动 。 

在 一 个 简单 的 数据 库 系 统 中 ， 存 储 管理 器 和 底层 操作 系统 的 文件 系统 没有 什么 不 同 。 但 是 ， 
为 了 提高 效率 ，DBMS 通常 直接 控制 在 磁盘 上 的 存储 ， 至 少 在 一 些 情况 下 是 这 样 的 。 存 储 管理 器 
跟踪 文件 在 磁盘 上 所 处 的 位 置 ， 获 得 缓冲 区 管理 器 所 要 求 的 文件 的 磁盘 块 号 。 

缓冲 区 管理 器 负责 将 可 利用 的 主 存 空间 分 割 成 缓冲 区 ,缓冲 区 是 与 页 面 同 等 大 小 的 区 域 ， 
磁盘 块 的 内 容 可 以 传送 到 缓冲 区 中 。 这 样 ， 所 有 需要 从 磁盘 得 到 信息 的 DBMS 成 分 都 或 直接 
或 通过 执行 引擎 与 缓冲 区 和 缓冲 区 管理 器 交互 。 不 同 的 DBMS 成 分 所 需要 的 信息 的 类 型 
包括 : 

. 数据 : 数据 库 自身 的 内 容 。 
. 元 数据 : 描述 数据 库 的 结构 及 其 约束 的 数据 库 模 式 。 
. 日 志 记 录 : 关于 最 近 对 数据 库 所 做 改变 的 信息 ， 这 些 信 息 支持 数据 库 的 持久 性 。 

4. 统计 信息 : DBMS 收集 和 存储 的 关于 数据 库 中 的 各 个 关系 或 其 他 成 分 的 大 小 、 取 值 等 
信息 。 

5. 索引 : 支持 对 数据 进行 高 效 存 取 的 数据 结构 。 


12.4 事务 处 理 

正如 前 面 所 讲 ， 通 常 将 一 个 或 多 个 数据 库 操 作 组 成 一 组 ， 称 作 事 务 ， 事 务 是 必须 被 作为 一 个 
原子 ， 外 观 上 独立 于 其 他 事务 执行 的 单位 。 而 且 ，DBMS 保证 持久 性 ， 即 已 完成 事务 所 做 的 工作 
决 不 会 丢失 。 事 务 管 理 器 从 应 用 系统 接收 事务 命令 ， 从 而 得 知 什么 时 候 事务 开始 ， 什 么 时 候 事务 
结束 ， 以 及 应 用 系统 的 期 望 ( 例 如 ， 某 些 应 用 可 能 不 希望 具有 原子 性 ) 。 事 务 处 理 器 执行 下 列 
任务 : ` 

1 日 志 记录 : 为 了 保证 持久 性 ， 对 于 数据 库 的 每 一 个 变化 都 在 磁盘 上 记录 上 日志。 日 志 管 理 
器 遵循 几 种 策略 中 的 某 一 种 进行 工作 ， 这 些 策略 保证 不 管 在 什么 时 候 系统 发 生 故 障 或 “崩溃 ”， 
恢复 管理 器 都 能 查看 关于 数据 库 变 化 的 日 志 ， 并 将 数据 库 恢复 到 某 个 一 致 的 状态 。 开 始 时 ， 日 志 
管理 器 将 日 志 写 到 缓冲 区 中 ， 然 后 它 与 缓冲 区 管理 器 协调 ， 保 证 在 适当 的 时 候 将 缓冲 区 写 到 磁 
盘 中 (磁盘 中 的 数据 不 受 系 统 骨 省 的 影响 ) 。 

2. 并 发 控制 : 事务 的 执行 从 表面 上 看 必须 是 孤立 的 。 但 是 在 大 多 数 系统 中 ， 实 际 上 有 许多 
事务 在 同时 执行 。 因 此 ， 调度 器 (并 发 控制 管理 器 ) 必须 保证 多 个 事务 的 一 个 个 动作 以 一 种 适当 
的 顺序 执行 ， 从 而 使 得 最 终 的 结果 与 这 些 事务 事实 上 一 个 执行 完了 再 执行 下 一 个 的 结果 相同 。 
典型 的 调度 器 通过 在 数据 库 的 某 些 部 分 上 维护 若干 个 锁 来 进行 它 的 工作 。 这 些 锁 防止 两 个 事务 
以 造成 不 良 后 果 的 方式 存 取 数据 的 相同 部 分 。 如 图 1-1 所 示 ， 锁 通常 存储 在 主 存储 器 中 的 封锁 表 
中 。 调 度 器 禁止 执行 引擎 访问 数据 库 中 被 封锁 的 部 分 ， 从 而 对 查询 和 其 他 数据 库 操 作 的 执行 发 
生 影 响 。 

3. 死 锁 解决 ， 当 事务 之 间 通 过 调度 器 所 授予 的 锁 进行 资源 竞争 时 ， 可 能 进入 这 样 一 种 情况 : 
没有 任何 一 个 事务 能 够 进行 下 去 ， 因 为 每 一 个 事务 都 需要 另 一 个 事务 所 持 有 的 某 个 资源 。 事 务 管理 
器 有 责任 进行 干预 ， 取 消 (“ 回 滚 "或 "中止 ” ) 一 个 或 多 个 事务 ， 从 而 使 其 他 的 事务 能 进行 下 去 。 


wn 
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事务 的 ACID 特性 
通常 我 们 说 正确 执行 的 事务 符合 “ACID EM”, HH: 


。“A” 表 示 “ 原 子 性 "(Atomicity) ， 即 事务 完全 执行 或 完全 不 执行 。 
e “I” 表示 “ 狐 立 性 ”(Isolation) ， 即 表面 看 起 来 每 一 个 事务 都 是 在 没有 其 他 事务 同时 执 
行 的 情况 下 执行 的 。 
e“D” 表 示 “ 持 久 性 ”(Durability) ， 即 一旦 事务 完成 了 ， 则 事务 对 数据 库 的 影响 就 不 会 
丢失 。 
剩 下 的 一 个 字母 "C ”表示 “一致 性 ”( Consistency) 。 也 就 是 说 ， 所 有 的 数据 库 都 有 一 致 性 
约束 ， 或 关于 数据 之 间 联 系 的 预期 状况 (例如 ， 在 一 个 事务 完成 后 ， 账 户 余额 不 能 是 负数 ) 。 
期 望 事务 能 够 保持 数据 库 的 一 致 性 。 




















1.2.5 查询 处 理 器 

DBMS 成 分 中 对 于 用 户 所 观察 到 的 数据 库 的 执行 影响 最 大 的 是 查询 处 理 器 。 在 图 1-1 中 , 查 
询 处 理 器 表示 为 两 个 成 分 : 

1. 查询 编译 器 ， 它 将 查询 翻译 成 一 种 内 部 形式 ， 称 作 查 询 计划 。 查 询 计划 是 要 在 数据 上 执 
行 的 一 系列 操作 。 

通常 查询 计划 中 的 操作 是 “关系 代数 ”的 实现 。 查 询 编 译 器 包括 三 个 主要 部 分 : 

© 查询 分 析 器 ， 它 由 文本 形式 的 查询 出 发 ， 建 立 一 个 树 结构 。 

© 查询 预 处 理 器 ， 它 对 查询 进行 语义 检查 (例如 ， 检 查 查 询 中 所 提 到 的 关系 是 否 都 确实 存 

在 ) ， 并 进行 某 些 树 结构 转换 ， 将 分 析 树 转 换 为 表示 最 初 的 查询 计划 的 代数 操作 树 。 

e 查询 优化 器 ， 它 将 最 初 的 查询 计划 转换 为 对 于 实际 数据 的 最 有 效 的 操作 序列 。 

查询 编译 器 利用 元 数据 和 关于 数据 的 统计 数据 来 确定 哪 一 个 操作 序列 可 能 是 最 快 的 。 例 如 ， 
一 个 索引 的 存在 可 能 会 使 得 某 查询 计划 比 另 一 个 计划 快 许 多 ， 索 引 是 一 种 专门 的 数据 结构 ， 它 
使 得 当 给 出 数据 中 一 个 或 多 个 成 分 的 值 时 ， 对 数据 的 访问 更 加 方便 。 

2. 执行 引擎 ， 它 负责 执行 选中 的 查询 计划 中 的 每 一 步 。 执 行 引 警 与 DBMS 中 大 多 数 的 其 他 
成 分 都 有 交互 ， 或 直接 交互 ， 或 通过 缓冲 区 。 为 了 对 数据 进行 操作 ， 它 必须 将 数据 库 的 数据 取 到 
缓冲 区 中 。 它 需要 和 调度 器 进行 交互 ， 以 避免 访问 被 加 了 锁 的 数据 ; 它 需 要 和 日 志 管理 器 进行 交 
互 ， 以 确保 对 于 数据 库 的 所 有 修改 都 正确 地 记 了 日 志 。 


1.3 本 书 概述 


本 书 内 容 主 要 包括 两 个 部 分 。 

第 一 部 分 : 数据 库 系统 实现 

我 们 从 研究 存储 管理 开始 : 如 何 利用 基于 磁盘 的 存储 来 组 织 数据 以 对 数据 进行 高 效 访问 。 
我 们 讲解 常用 的 B - 树 结构 ， 它 是 磁盘 块 的 平衡 树 和 用 于 管理 多 维 数据 的 其 他 的 特殊 模式 。 

然后 我 们 讨论 查询 处 理 。 这 个 主题 分 为 两 部 分 。 首 先 ， 学 习 查 询 执行 : 用 来 实现 构成 查询 的 
操作 的 算法 。 由 于 数据 通常 在 磁盘 上 ， 所 以 算法 与 假设 数据 在 主 存 上 来 研究 同样 的 问题 有 所 不 
同 。 接 下 来 是 查询 编译 。 这 里 ， 我 们 研究 如 何 从 一 个 给 定 的 查询 的 所 有 可 能 执行 方法 中 选择 一 个 
高 效 的 查询 计划 。 

然后 ， 我 们 研究 事务 处 理 。 我 们 沿 着 几 条 线索 来 考察 。 一 个 是 考虑 日 志 ; 为 DBMS 所 做 的 
事 而 维护 可 介 的 记录 ， 目 的 是 在 崩溃 后 能 够 进行 恢复 。 另 一 个 是 调度 : 控制 事务 中 事件 的 顺序 来 
保证 ACID 特性 。 此 外 ， 还 讨论 如 何 处 理 死 锁 ， 以 及 当 一 个 事务 分 布 在 许多 独立 的 站 点 上 时 如 何 
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对 算法 进行 改进 。 

第 二 部 分 : 现代 数据 库 系 统 专题 

在 这 一 部 分 ， 我 们 考察 几 个 问题 ， 其 中 的 数据 库 系统 技术 超越 了 传统 的 关系 型 DBMS 的 研究 
领域 。 我 们 考虑 搜索 引擎 如 何 工作 ， 以 及 使 其 操作 成 为 可 能 的 特殊 的 数据 结构 。 我 们 还 考察 信息 
集成 和 使 数据 库 无 缝 地 共享 数据 的 方法 。 数 据 挖掘 研 究 以 复杂 方式 处 理 大 量 数据 的 许多 有 趣 和 
重要 的 算法 。 数 据 流 系统 处 理 那 些 连续 到 达 系 统 的 数据 ,它们 的 查询 能 被 及 时 而 连续 地 响应 。 
P2P 系统 管理 多 个 独立 的 主机 所 持 有 的 分 布 式 数据 。 


1. 4 ”数据 库 模 型 和 语言 回顾 
在 本 节 中 ， 我 们 对 SQL 和 关系 模型 做 一 简单 回顾 。 


1.4.1 关系 模型 回顾 

关系 是 元 组 的 集合 ， 而 元 组 是 值 的 列表 。 一 个 关系 中 的 所 有 元 组 都 含有 相同 数目 的 分 量 ， 不 
同 元 组 中 对 应 的 分 量具 有 相同 的 类 型 。 我 们 展示 一 个 关系 的 方法 是 将 它 的 元 组 作为 一 个 个 的 行 
列 出 来 。 列 的 头 称 作 属性 ， 它 表示 元 组 中 每 一 个 分 量 的 含义 。 关 系 名 、 属 性 名 以 及 属性 类 型 称 作 
该 关系 的 模式 。 

例 1.1 我 们 在 举例 时 常常 用 到 关系 Movie， 它 可 能 包含 如 下 元 组 ， 


title 


Star Wars 





Mighty Ducks 
Wayne’s World 











该 关系 的 模式 为 : 


Movie (title, year, length) 


其 中 title, year, length 是 属性 ， 假 设 它们 的 类 型 分 别 为 字符 串 、 整 数 、 整 数 。 横 线 以 下 的 三 行 每 

行为 一 个 元 组 。 例如， 第 一 行 的 意思 是 《星球 大 战 ) 的 制作 时 间 为 1977 年 ， 该 影片 的 长 度 为 124 

分 钟 。 口 
数据 库 模式 是 关系 模式 的 集合 。 在 我 们 有 关 影 片 的 运行 实例 中 ， 常 常用 到 以 下 关系 : 


Movie (title, year, length, studioName) 
MovieStar (name, address, gender, birthdate) 
StarsIn (title, year, starName) 


Studio (name, address) 


第 一 个 关系 与 例 1. 1 中 的 Movie 关系 相似 ， 只 是 在 例子 中 需要 加 上 一 些 连接 ， 从 而 增加 了 表 
示 制 片 三 名 的 属性 。 第 二 个 关系 给 出 关于 电影 明星 的 信息 ， 第 三 个 关系 将 电影 和 明星 联系 起 来 ， 
第 四 个 关系 给 出 关于 电影 制 片 三 的 信息 。 各 属性 的 含义 应 该 已 经 通过 它们 的 和 名字 反映 得 很 清 
楚 了 。 


1.4.2 SQL 回顾 
数据 库 语 言 SQL 具有 多 种 能 力 ， 包 括 查 询 和 修改 数据 库 的 语句 。 数 据 库 修改 通过 三 条 命令 
来 进行 : INSERT、DELETE、UPDATE。 在 这 里 我 们 不 对 它们 的 语法 进行 回顾 了 。 查 询 通 常 通过 
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select-from-where 语句 来 表达 ， 它 具有 图 1-2 所 示 的 一 般 形 式 。 其 中 必须 有 的 只 是 前 两 行 ( 子 句 ) ， 
即 由 SELECT 和 FROM 开始 的 两 个 子 句 。 
这 样 的 查询 的 结果 可 以 计算 如 下 (尽管 还 有 更 好 的 计算 方 











SELECT “属性 表 > 
法 ) : FROM < 关系 表 > 
1. 取 FROM 子 句 中 列 出 的 各 个 关系 的 元 组 的 所 有 可 能 组 合 。 WHERE < 条 件 > 
2. 将 不 符合 WHERE 子 句 中 给 出 的 条 件 的 元 组 去 掉 。 GROUP BY < 属性 表 > 
3. WRA GROUP BY 子 句 ， 则 将 剩 下 的 元 组 按 GROUP BY | HAVING < 条 件 > 
子 句 中 给 出 的 属性 的 值 分 组 。 ORDER BY “属性 表 、> 


4. 如 果 有 HAVING 子 句 ， 则 按照 HAVING 子 句 中 给 出 的 条 ” 图 1.2 SQL 查询 的 一 般 形式 
件 检查 每 一 个 组 ， 去 掉 不 符合 条 件 的 组 。 

5. 按照 SELECT 子 句 的 说 明 ， 对 于 指定 的 属性 和 属性 上 的 聚集 (例如 一 组 中 的 和 ) 计算 出 结 
果 元 组 。 

6. 按照 ORDER BY 子 句 中 的 属性 列 的 值 对 结果 元 组 进行 排序 。 

例 1.2 图 1-3 是 一 个 简单 的 SQL 查询 ， 它 只 包含 前 三 个 子 句 。 要 求 在 Paramount 制 片 厂 生 
产 的 影片 中 ， 查 询 扮演 角色 的 电影 明星 的 名 字 和 相应 的 影片 的 和 名字。 请 注意 ，title 和 year 组 合 在 
一 起 是 Movie 的 键 ， 因 为 可 能 会 有 两 部 影片 具有 相同 的 名 字 ( 但 不 是 同一 年 生产 的 ) 。 口 

例 1.3 图 1-4 是 一 个 更 复杂 的 查询 。 它 要 求 我 们 首先 找 出 至 少 在 3 部 影片 中 担任 角色 的 电 
影 明 星 。 查 询 的 这 个 部 分 表达 为 : 将 StarsIn 元 组 按照 电影 明星 的 名 字 分 组 (GROUP BY FAJ), 
然后 去 掉包 含 两 个 或 两 个 以 下 元 组 的 组 。 























SELECT StarName, Movie. title SELECT StarName, MIN(year) AS minYear 
FROM Movie, StarsIn FROM StarsIn 
WHERE Movie. title = StarsIn. title AND GROUP BY starName 
Movie. year = StarsIn. year AND HAVING COUNT (* ) > = 3 
StudioName = ’ Paramount’ ; ORDER BY minYear ; 
图 1-3 找 出 Paramount 电影 明星 图 1-4 找 出 至 少 在 三 部 影片 中 出 现 的 明星 
的 最 早出 现年 份 


然后 ，SELECT 子 句 告诉 我 们 ， 对 于 剩 下 来 的 每 一 个 组 ， 取 出 电影 明星 的 名 字 以 及 该 明星 在 
电影 中 出 现 的 最 时 年份 。SELECT 表 的 第 二 个 分 量 MIN( year) 被 赋予 了 属性 名 minYear。 最 后 ， 
ORDER BY 子 句 表示 输出 元 组 按照 minYear 值 的 升序 排列 ， 即 电影 明星 按照 他 们 的 首部 影片 的 次 
序 出 现 。 口 

子 查询 

SQL 所 提供 的 强 有 力 的 特性 之 一 是 在 WHERE, FROM 或 HAVING 子 句 中 使 用 子 查询 的 能 力 。 
子 查询 是 一 个 完整 的 select-from-where 语句 ， 在 上 述 的 WHERE、FROM 或 HAVING 子 句 中 会 检查 
子 查询 的 值 。 

例 1.4 图 1-5 是 一 个 带子 查询 的 SQL 查询 。 整 个 查询 是 找 出 不 在 Hollywood 生产 的 影片 的 
名 字 和 年 代 。 子 查询 


SELECT name 
FROM Studio 
WHERE address NOT LIKE °% Hollywood % ° 
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产生 一 个 单个 列 的 关系 ， 关 系 中 包含 其 地 址 中 不 出 现 “Hollywood” 的 所 有 制 片 厂 的 名 字 。 然 
后 这 一 子 查询 被 用 到 外 层 查询 的 WHERE 子 句 中 ， 去 找 出 出 现在 这 一 制 片 厂 名 字 集 合 中 的 
影片 。 口 

视图 

SQL 的 另 一 个 重要 的 能 力 是 视图 的 定义 ， 这 是 对 于 不 实际 存储 但 在 需要 时 从 实际 存储 的 关系 
构造 出 来 的 关系 的 描述 。 

例 1.5 图 1-6 给 出 了 一 个 视图 的 定义 , 该 视图 是 Paramount 制 片 厂 生产 的 影片 的 名 字 和 年 
代 。 视 图 ParamountMovie 的 定义 存储 为 数据 库 模 式 的 一 个 部 分 ， 但 在 这 个 时 候 并 不 计算 出 它 的 元 
组 。 如 果 我 们 在 查询 中 使 用 ParamountMovie 作为 一 个 关系 ， 那 么 就 通过 将 视图 定义 合并 到 查询 中 
来 逻辑 地 构造 出 它 的 元 组 ; 或 者 ， 如 果 查 询 不 需要 整个 的 关系 ， 那 就 构造 出 它 的 元 组 的 必要 的 子 
集 。 因 此 ， 这 些 元 组 实际 上 根本 就 不 存储 在 数据 库 中 。 口 





SELECT title, year 














FROM Movie 
WHERE studioName IN ( 
SELECT name CREATE VIEW ParamountMovie AS 
FROM Studio SELECT title, year 
WHERE address NOT LIKE °% Hollywood % ’ FROM Movie 
); WHERE studioName = ’Paramount’ ; 
图 1-5 找 出 不 在 Hollywood 生产 的 影片 图 1-6 表示 Paramount 生产 的 影片 的 视图 
1.5 参考 文献 


当今 ， 在 线 可 查找 的 文献 资料 基本 上 覆盖 了 有 关 数 据 库 系统 的 所 有 当前 的 论文 。 因 此 ， 在 本 
书 中 ， 我 们 不 打算 做 穷 举 引证 ， 而 是 只 列举 具有 历史 性 重要 意义 的 文章 和 主要 的 辅助 信息 源 或 
有 用 的 综述 性 文章 。 有 关 数 据 库 研究 的 论文 ， 一 个 可 查找 的 索引 是 Michael Ley 建立 的 [5] ， 它 已 
经 扩展 到 了 包括 许多 领域 的 参考 资料 。Alf-Christian Achilles 维护 了 一 个 有 关 数 据 库 领域 的 许多 索 
引 的 一 个 可 查找 的 目录 [3]。 
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帮助 确立 了 这 种 类 型 的 系统 成 为 主导 的 数据 库 技术 。 许 多 促成 数据 库 领 域 成 长 的 论文 在 [6] 中 
可 以 找到 。 

2003 年 的 “Lowell 报告 "[ 1] 是 有 关 数 据 库 系 统 研究 和 方向 的 系列 报告 中 最 新 的 一 个 。 它 同时 
也 引用 了 较 早 的 同类 报告 。 

文献 [2] 到 文献 [8] 中 有 更 多 关于 数据 库 系统 理论 的 资料 。 
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第 2 章 ， 辅 助 存储 管理 


数据 库 系统 总 会 涉及 辅助 存储 器 一 一 磁盘 和 其 他 能 够 存储 大 量 需 要 长 期 保存 的 数据 的 设备 。 
本 章 讲述 我 们 需要 知道 的 一 个 典型 的 计算 机 系统 如 何 进行 存储 管理 。 我 们 将 回顾 存储 器 层次 ， 
其 设备 的 访问 速度 递减 而 存储 空间 却 递 增 。 我 们 将 特别 关注 磁盘 ， 研 究 磁 盘 上 数据 的 组 织 形 式 
对 其 访问 速度 的 影响 。 我 们 还 将 学 习 提 高 磁盘 可 擎 性 的 机 制 。 

然后 ， 我 们 转 而 研究 数据 是 如 何 表示 的 ， 并 讨论 关系 的 元 组 或 者 类 似 的 记录 或 对 象 是 如 何 
被 存储 的 。 所 有 这 些 研究 中 ， 效 率 始终 是 关键 问题 。 我 们 还 将 探究 快速 查询 记录 的 方法 ， 以 及 记 
录 播 入、 删除 和 大 小 可 以 变化 的 记录 的 管理 。 


2.1 存储 器 层次 


在 这 一 部 分 ， 我 们 首先 研究 一 个 计算 机 系统 的 存储 器 层次 。 然 后 将 重点 放 在 磁盘 上 ， 目 前 ， 
它 是 存储 器 层次 中 “辅助 存储 ” 层 中 最 常见 的 设备 。 我 们 粗略 地 给 出 了 决定 访问 速度 的 参数 并 考 
察 数据 从 磁盘 向 存储 器 层次 中 更 低层 的 转移 。 


2.1.1 存储 器 层次 

一 个 典型 的 计算 机 系统 包括 几 个 不 同 的 可 以 存储 数据 的 部 件 。 这 些 部 件 的 数据 存储 容量 的 
范围 至 少 有 7 个 数量 级 ， 其 访问 速度 范围 也 超过 7 个 数量 级 。 这 些 部 件 的 每 个 字 节 的 价格 也 各 不 
相同 ， 但 是 变化 范围 要 小 些 ， 随 着 存储 器 形式 DBMS 
的 不 同 ， 其 最 便宜 的 与 最 昂贵 的 相 比 也 许 要 相 
23 个 数量 级 。 训 不 奇怪 ， 具 有 最 小 容量 的 设 
备 提供 最 快 访问 速度 ， 其 每 个 字 节 的 价格 也 最 
高 。 存 储 器 的 层次 结构 如 图 2-1 所 示 。 

下 面 将 从 最 低层 ， 即 最 快 - 最 小 层 开始 ， 
向 上 简要 描述 每 一 层 。 

1. 高 速 缓存 (Cache)。 一 个 典型 的 计算 机 
有 1 兆 或 更 多 的 高 速 缓存 。 板 级 高 速 缓存 (on- 
board cache) 位 于 作为 微 处 理 器 本 身 的 同一 芯片 
上 ， 而 附加 的 二 级 高 速 缓存 则 位 于 另 一 个 芯片 。 
当 处 理 器 需要 数据 和 指令 时 ， 数 据 和 指令 就 会 
被 从 内 存 移 到 高 速 缓存 中 ， 处 理 器 访问 高 速 组 
存 的 数据 只 需 几 纳 秒 。 图 2-1 存储 器 层次 


非 易 失 的 
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2. 主 存储 器 (Main Memory) 。 计 算 机 主 存储 器 是 计算 机 的 活动 中 心 。 可 以 认为 ， 发 生 在 计算 
机 中 的 每 一 件 事 情 ， 不 论 是 指令 的 执行 还 是 数据 的 操纵 ， 都 是 作用 于 驻 留 在 内 存 的 信息 上 (尽管 
实际 上 通常 会 将 所 使 用 的 数据 转移 到 高 速 缓存 中 ) 。 一 个 2008 年 的 典型 计算 机 配置 大 约 1GB E 
存 ， 甚 至 还 可 以 更 大 。 将 数据 从 内 存 转移 到 处 理 器 或 高 速 缓存 的 速度 在 10 ~ 100ns 的 范围 内 。 

3. 辅助 存储 器 (Secondary Storage) 。 典 型 的 辅助 存储 器 是 磁盘 ， 我 们 将 在 2.2 节 详 细 讨 论 。 
2008 年 ， 一 个 磁盘 部 件 的 容量 可 以 达到 1TB， 一 个 计算 机 可 以 有 好 几 个 磁盘 。 在 磁盘 和 主 存 间 
传送 一 个 字 节 的 时 间 在 10ms 左右 。 但 是 ， 因 为 一 次 可 以 传送 大 量 字 节 ， 磁 盘 的 数据 传送 速度 问 
题 还 是 比较 复杂 的 。 

4. 第 三 级 存储 器 (Tertiary Storage) 。 尽 管 多 个 磁盘 可 以 使 计算 机 的 存储 容量 相当 大 ,但 是 有 
的 数据 库 的 数据 量 要 比 单 台 机 器 甚至 多 台 机 器 的 磁盘 所 能 存储 的 容量 大 得 多 。 为 了 适应 这 样 的 
需求 ， 第 三 级 存储 器 被 开发 出 来 ， 用 以 保存 数 以 兆 兆 字 节 计 的 数据 。 第 三 级 存储 器 的 特点 在 于 ， 
与 辅助 存储 器 相 比 ， 其 读 / 写 时 间 要 长 得 多 ， 但 是 其 容量 比 磁 盘 大 得 多 ， 每 个 字 节 花费 比 磁 盘 小 。 
许多 第 三 级 设备 需要 机 械 臂 或 者 传送 器 将 磁带 或 光盘 (例如 DVD) 放 到 读 取 设备 上 。 读 取 数 据 需 
要 花费 几 秒 甚至 几 分 钟 ， 但 可 以 达到 PT 级 别 的 读 写 容量 。 


计算 机 计量 是 2 DRE 

通常 在 谈论 计算 机 部 件 的 大 小 或 容量 时 就 好 像 它们 是 10 的 方 考 的 。 例 如 KEW, FI 
字 贡 等 。 实 际 上 ， 因 为 最 有 效 的 方法 是 将 存储 器 芯片 那样 的 部 件 设 计 成 容纳 2 WR OH 
制 位 数 ， 所 以 事实 上 这 些 数字 都 是 与 之 最 接近 的 2 的 乘 宕 的 简写 。 因 为 2" =1024， 它 很 接近 
¥ 1000, ATH ¥ RR 2° =1000, HHARR2°H HA “OF” (WR kilo)。22 为 “ 兆 ” 
(mega), 2° 4“ FR” (giga), 2° “Ik (tera), 2” X (peta) 。 尽 管 按照 科学 记 数 法 ， 这 
AR KK 10°, 10°, 10° 和 10”*。 误差 随 着 我 们 谈论 的 数量 的 增 大 而 增长 。1 TAF 
节 ， 真 正 的 值 是 1.074 x10? 7#, 

我 们 采用 标准 的 缩 略 字母 来 表示 这 些 数值 ，K、M、G、T 和 PP 分 别 依次 表示 千 、 兆 、 千 兆 、 
兆 兆 和 各 千 兆 光 。 这 样 ，16GB 表示 THEY, 或 者 严格 地 说 2” 字 节 。 由 于 我 们 有 时 想 谈论 传 
统 的 10 的 方 宏 的 数值 ， 我 们 将 保留 这 些 传 统 的 数字 单位 来 表示 这 些 数值 ， 而 不 是 采用 “ 千 ”、 
“ 光 ” 等 。 例 如 ,“100 万 字 节 ”就 是 1 000 000 字 节 ， 而 “一 兆 字 节 ” 则 是 1 048 576 字 节 。 

一 种 最 近 的 趋势 是 用 “kilobyte”、“megabyte” 等 作为 10 WR, HA bi” RAH HR WF 
母 来 表示 2 WMA, Aik, “kibibyte” Æ 1024 #4, “mebitype” 是 1 048 576 字 节 等 。 我 
们 不 使 用 这 种 方法 。 




















2.1.2 在 存储 器 层次 间 传 送 数据 

正常 情况 下 ， 数 据 在 相 邻 层 之 间 进 行 传输 。 在 第 二 级 和 第 三 级 间 ， 由 于 访问 想 要 的 数据 或 查 
找 指定 的 位 置 以 存储 数据 会 耗费 大 量 时 间 ， 所 以 当 需 要 数据 时 ， 每 一 层 的 访问 都 会 被 组 织 起 来 
以 便 与 其 下 层 传送 大 量 数据 。 对 于 理解 数据 库 系统 特别 重要 的 是 磁盘 被 划分 成 磁盘 块 (或 就 称 为 
块 ， 或 者 像 操作 系统 称 为 页 ) ， 每 块 的 大 小 是 4 ~ 64kB。 整 个 块 被 从 一 个 称 为 缓冲 区 的 连续 内 存 
区 域 中 移 进 移出 。 因 此 ， 加 速 数据 库 操 作 的 关键 技术 是 安排 好 数据 ， 使 得 当 某 一 个 磁盘 块 中 有 数 
据 被 访问 时 ， 大 约 在 同时 很 有 可 能 该 块 上 的 其 他 数据 也 需要 被 访问 。 

同样 的 想法 可 以 应 用 于 其 他 存储 层 上 。 如 果 我 们 使 用 第 三 级 存储 ， 我 们 将 尽量 安排 以 便当 
我 们 读 取 一 个 存储 单元 (例如 一 个 DVD) 时 ， 我 们 需要 DVD 上 的 大 部 分 内 容 。 在 更 低 的 层次 上 ， 
主 存储 器 与 高 速 缓存 间 的 传输 是 以 高 速 缓存 线 为 基本 单元 ， 一 般 是 32 个 连续 的 字 节 。 我 们 希望 
整个 高 速 缓存 线 能 够 被 一 起 使 用 。 例 如 ， 如 果 一 条 高 速 缓存 线 存 储 着 一 个 程序 的 连续 指令 ， 我 们 
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希望 当 第 一 条 指令 被 请 求 时 ， 接 下 来 的 指令 也 会 被 随 之 执行 。 


2.1.3 ” 易 失 和 非 易 失 存储 器 

存储 设备 的 男 外 一 个 特性 是 它们 是 易 失 的 (volatile) 还 是 非 易 失 的 (nonvolatile)。 一 个 易 失 的 
设备 ， 当 切断 电源 时 ， 它 会 “忘记 ”所 存储 的 信息 。 另 一 个 方面 ， 一 个 非 易 失 的 设备 ， 当 设备 被 
关闭 或 电源 发 生 故 障 时 ， 能 保持 它 的 内 容 完 整 无 缺 ， 甚 至 长 期 地 保存 下 去 。 易 失 性 问题 是 一 个 很 
重要 的 问题 ， 因 为 DBMS 颇具 特色 的 性 能 之 一 就 是 ， 即 便 在 发 生 错误 ， 例 如 电源 故障 的 情况 下 仍 
有 能 力 保 留 其 数据 。 

磁 和 光 材 料 能 在 断 电 的 情况 下 保存 数据 。 因 此 ， 原 则 上 讲 ， 所 有 的 辅助 存储 和 第 三 级 存储 都 
是 非 易 失 的 (虽然 某 类 更 昂贵 的 内 存 芯 片 ， 例 如 闪存 ， 也 可 以 在 断 电 时 保存 数据 ) 。 在 DBMS 中 
复杂 性 的 一 个 重要 原因 是 如 下 需求 : 数据 库 中 的 任何 修改 都 不 能 认为 是 最 终 有 效 的 ， 直 到 该 修 
改 被 存储 到 非 易 失 性 的 辅助 存储 器 中 。 


2.1.4 虚拟 存储 器 

典型 的 软件 运行 在 虚拟 存储 器 中 ， 它 是 一 个 地 址 空间 ， 大 小 一 般 为 32 位 ， 即 在 虚拟 存储 器 
中 有 2”B 或 4GB。 操 作 系统 管理 虚拟 存储 器 ， 让 它 的 一 部 分 留 在 内 存 中 ， 而 剩 下 的 保存 在 磁盘 
中 。 内 存 和 磁盘 间 的 数据 传送 以 磁盘 块 (页 ) 为 单位 的 。 虚 拟 存储 器 是 操作 系统 和 操作 系统 运用 
机 器 硬件 的 产物 ， 它 不 是 存储 器 层次 之 一 。 








摩尔 定律 

Gordon Moore 在 很 多 年 以 前 就 发 现 ， 集 成 电路 在 以 多 种 方式 改进 ， 其 发 展 速度 遵循 着 指 
数 曲 线 ， 每 18 个 月 就 要 翻 一 和 慢 。 遵 循 摩尔 定律 的 一 些 参 数 是 : 

1. 单位 成 本 所 能 执行 的 指令 数 / 秒 。2005 年 之 前 ， 这 种 增长 都 是 通过 提高 处 理 器 芯片 速度 
而 得 到 的 。2005 年 以 后 ， 这 种 增长 则 是 通过 向 单个 固定 成 本 的 芯片 中 逐渐 放置 多 个 处 理 器 来 实现 。 

2. 单位 成 本 所 能 购买 的 主 存 的 二 进 制 位 数 和 可 以 置 于 一 个 芯片 的 二 进 制 位 数 。 

3. 硬盘 上 单位 成 本 的 字 节 数 和 最 大 硬盘 容量 。 

另 一 方面 ， 还 有 一 些 不 遵从 摩尔 定律 的 其 他 重要 参数 ; 它们 增长 得 很 慢 ， 如 果 它 们 的 确 
在 增长 的 话 。 这 些 缓慢 增长 的 参数 包括 对 主 存 中 数据 的 访问 速度 ， 以 及 硬盘 旋转 的 速度 等 。 
由 于 它们 增长 得 慢 ,“ 等 待 时 间 " 便 逐渐 地 变 得 更 大 。 人 也 就 是 说 ， 如 今 ， 数 据 在 存储 器 层次 各 
级 之 间 移 动 的 时 间 消 耗 很 大 ， 并 且 以 后 只 会 更 糟 。 


图 2-1 有 关 虚 拟 存储 器 的 路 径 代表 传统 的 程序 和 应 用 的 处 理 方法 。 它 不 代表 数据 库 中 管理 数 
据 的 典型 方式 。 然 而 ， 人 们 对 主 存 数 据 库 系 统 的 兴趣 正在 增加 。 主 存 数 据 库 系 统 真 正 是 通过 虚 存 
来 管理 它们 的 数据 ， 依 靠 操作 系统 ， 通 过 页 面 机 制 把 所 需要 的 数据 带 到 主 存 。 与 大 多 数 应 用 系统 
一 样 ， 主 存 数据 库 系统 在 数据 量 小 到 主 存 足以 保存 这 些 数 据 的 情况 下 最 有 用 ， 这 时 不 需要 由 操 
作 系 统 来 换 出 数据 。 


2.1.5 习题 

习题 2. 1. 1 假定 在 2008 年 典型 的 计算 机 有 一 个 双 处 理 器 ( 核 ) 的 芯片 ， 每 个 处 理 器 以 3GHz 的 频率 运行 ， 
有 一 个 250GB 的 硬盘 ， 以 及 容量 为 1CB 的 主 存储 器 。 假 设 摩尔 定律 ( 这 些 参数 每 18 个 月 翻 一 番 ) 到 无 限 
期 的 将 来 继续 有 效 。 
a) 何 时 千 兆 兆 字 节 (PB 一 一 译 者 注 ) 磁 盘 将 成 为 普遍 的 ? 
b) 何 时 兆 兆 字 节 (TB 一- 译 者 注 ) 主 存 将 成 为 普遍 的 ? 
c) 何 时 兆 兆 赫兹 (THz) 处 理 器 将 成 为 普遍 的 (例如 ， 何 时 一 个 芯片 上 所 有 核 每 秒 所 能 运行 的 指令 周期 的 数 

量 总 和 将 会 达到 2”)? 
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d) 到 2015 年 ， 什 么 样 的 配置 (处 理 器 、 磁 盘 、 主 存 ) 将 成 为 典型 的 配置 ? 

! 习题 2. 1.2 来 自 24 世纪 《星际 旅行 : 下 一 代 》 中 的 机 器 人 德 特 曾 经 骄傲 地 宣布 ， 他 的 处 理 器 以 *12 兆 兆 次 
操作 / 秒 ” 的 速度 运行 。 尽管 一 个 操作 与 一 个 周期 可 以 是 不 同 的 ,我们 假定 它们 是 相同 的 ， 并 且 摩 尔 定律 在 
未 来 300 年 依然 有 效 。 如 果 是 这 样 ， 德 特 的 处 理 器 的 真正 速度 是 多 少 ? 


2.2 磁盘 


辅助 存储 器 的 使 用 是 数据 库 管理 系统 的 重要 特性 之 一 ， 而 辅助 存储 器 几乎 都 是 基于 磁盘 的 。 
这 样 ， 为 了 说 明 DBMS 实现 中 采用 的 许多 思想 的 理由 ， 我 们 必须 详细 地 研究 磁盘 操作 。 


2.2.1 磁盘 结构 

图 2-2 给 出 了 一 个 磁盘 驱动 器 两 个 主要 的 移动 部 件 ; 一 个 是 磁盘 组 合 ( disk assembly) ， 另 一 
个 是 磁头 组 合 (head assembly) 。 磁 盘 组 合 由 一 个 或 多 个 圆 表 (platter) 组 成 ， 它 们 围绕 着 一 根 中 心 
主轴 旋转 。 圆 盘 的 上 表面 和 下 表面 涂 覆 了 一 薄 层 磁性 材料 ， 二 进 制 位 被 存储 在 这 些 磁性 材料 上 。 
其 中 ,0 和 1 在 磁 材 料 中 表现 为 不 同 的 模式 。 盘 片 的 直径 一 般 是 3.5 英寸 ,尽管 直径 从 一 英寸 到 
几 英 尺 的 磁盘 都 已 经 制造 出 来 。 

磁盘 被 组 织 成 磁道 (track) ， 磁 道 是 单个 盘 片 上 的 同心 贺 。 所 有 盘面 上 半径 相同 的 磁道 构成 
了 柱 面 (cylinder) ， 从 图 2-3 的 顶 视图 可 以 看 到 ， 磁 道 占 据 大 部 分 盘面 ， 最 靠近 主轴 的 区 域 除外 。 
沿 着 磁道 的 数据 密度 大 于 沿 着 半径 的 数据 密度 。 在 2008 年 ， 一 个 典型 的 磁盘 上 每 英寸 有 大 约 
100 000 个 磁道 ， 但 是 沿 着 磁道 每 英寸 能 够 存储 100 万 个 二 进 制 位 。 


> 
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图 22 一 个 典型 的 磁盘 图 2-3 ”盘面 的 顶 视 图 


磁道 被 组 织 成 扇 区 (sector) 。 扇 区 是 被 间 队 (gap) 分 割 的 圆 的 片段 ， 间 隙 未 被 磁化 为 0 或 1 9。 
就 读 写 磁盘 而 论 ， 扇 区 是 不 可 分 割 的 单位 ; 就 磁盘 错误 而 论 ， 它 也 是 一 个 不 可 分 割 的 单位 。 倘 若 
一 部 分 磁化 层 被 以 某 种 方式 损坏 ， 以 至 于 它 不 再 能 存储 信息 ， 那 么 那些 包含 这 个 部 分 的 整个 扇 
区 也 不 能 再 使 用 。 间 隙 大 约 占 整 个 磁道 的 10% ， 用 于 帮助 标识 扇 区 的 起 点 。 我 们 在 2.1.2 节 中 
所 提 到 的 “ 块 ”， 是 在 磁盘 与 主 存 之 间 所 传输 数据 的 逻辑 单元 ， 由 一 个 或 多 个 扇 区 所 组 成 。 

图 2-2 所 示 的 第 二 个 可 移动 部 件 是 磁头 组 合 ， 它 承载 着 磁头 。 每 一 个 盘面 有 一 个 磁头 ， 它 极 


O 在 图 2-3 中 ， 我 们 显示 每 一 个 磁道 有 相同 的 扇 区 数 。 然 而 ， 每 个 磁道 的 肩 区 数 通常 是 不 同 的 ， 靠 外 圈 磁 道 的 扇 区 
数 比 靠 内 图 磁道 的 扇 区 数 多 。 
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ACME ir He AS PE A TT, 1 a te tS Bae fk (A Ee“ SR” , RHR), k 
读 出 经 过 它 下 面 的 盘面 的 磁 方 向 ， 也 能 改变 其 磁 方 向 ， 以 便 在 磁盘 上 写 信息 。 每 个 磁头 被 固定 在 
一 个 磁头 臂 上 ， 所 有 盘面 的 磁头 随 着 磁头 臂 一 同 移 进 移出 ， 磁 头 臂 是 固定 的 磁头 组 合 的 一 部 分 。 

例 2.1 Megatron 747 磁盘 是 一 种 典型 的 vintage - 2008 的 大 容量 的 驱动 器 ， 它 具有 下 列 特性 : 

e 8 个 圆 盘 ，16 个 盘面 。 

。 每 个 盘面 有 2 R 65 536 个 磁道 。 

。 每 个 磁道 (平均 ) 有 2" =256 +} MK. 

。 HT RK A 2” =4096 个 字 节 。 

整个 磁盘 的 容量 的 算法 是 : 16 个 盘面 ， 乘 以 65 536 ARÉ, FEL 256 个 扇 区 ， 再 乘 以 4096 
字 节 ， 即 2' x2" x2* x2”=2” 字 节 。 这 样 Megatron 747 是 一 块 1TB 的 磁盘 。 一 个 磁道 存放 256 x 
4096 字 节 或 1MB。 如 果 一 个 块 的 容量 是 2“( 即 16 384) 字 节 ， 那 么 一 个 块 使 用 4 个 连续 扇 区 ， 一 
个 磁道 上 (平均 ) 有 256/4 = 32 个 块 。 o 


2.2.2 磁盘 控制 器 

一 个 或 多 个 磁盘 驱动 器 被 一 个 磁盘 控制 器 所 控制 ， 磁盘 控制 器 是 一 个 小 处 理 器 ， 能 够 完成 
以 下 功能 : 

1. 控制 移动 磁头 组 合 的 机 械 马 达 ， 将 磁头 定位 到 一 个 特定 的 半径 位 置 ， 使 得 某 一 柱 面 任何 
磁道 都 可 以 被 读 写 。 

2. 从 磁头 所 在 柱 面 的 鹿 区 中 选择 一 个 扇 区 。 控 制 器 也 负责 识别 何 时 旋转 主轴 已 经 到 达 了 所 
要 求 的 扇 区 正 移动 到 磁头 下 面 的 那个 点 ; 

3, 将 从 所 要 求 的 扇 区 读 取 的 二 进 制 位 传送 到 计算 机 的 主 存储 器 。 

4. 可 能 的 话 ， 将 一 整 条 或 更 多 磁道 缓存 于 磁盘 控制 器 的 内 存 中 ,期 待 该 磁道 的 许多 扇 区 能 


够 被 很 快 读 了 到， 从 而 避免 对 磁盘 的 额外 访问 。 
图 2-4 是 一 台 简 单 的 单 处 理 器 计算 机 的 示意 图 。 处 理 
器 经 由 数据 总 线 与 主 存储 器 和 磁盘 驱动 器 进行 通信 。 一 个 
-一 总 线 


磁盘 控制 器 可 以 控制 多 个 磁盘 ， 在 本 例 中 有 三 块 磁盘 。 


2.2.3 磁盘 存 取 特 性 

存 取 ( 读 或 写 ) 一 个 磁盘 块 需要 3 步 ， 每 一 步 都 有 相关 
的 延迟 。 

1. 磁盘 控制 器 将 磁头 组 合 定位 在 磁盘 块 所 在 磁道 的 柱 
面 上 所 需要 的 时 间 即 寻 道 时 间 (seek time) 。 

2. 磁盘 控制 器 等 待 访问 块 的 第 一 个 扁 区 旋转 到 磁头 
下 。 此 时 间 称 为 旋转 延迟 (rotational latency) 。 

3. 当 磁 盘 控制 器 读 取 或 写 数据 时 ， 数 据 所 在 的 扇 区 和 图 2-4 简单 计算 机 系统 示意 图 
扇 区 间 的 空隙 经 过 磁头 ， 此 时 间 称 为 传输 时 间 (transfer time) 。 

寻 道 时 间 、 旋 转 延 迟 和 传输 时 间 的 总 和 称 为 磁盘 的 延迟 (latency) 。 

一 个 典型 磁盘 的 寻 道 时 间 取 决 于 磁头 到 它 要 访问 位 置 的 距离 ， 如 果 磁 头 已 经 位 于 所 需 柱 面 
上 ， 则 寻 道 时 间 是 0， 但 需 用 大 概 lms 的 时 间 来 启动 磁头 ， 约 10ms 的 时 间 移 过 所 有 磁道 。 

典型 的 磁盘 旋转 一 次 大 约 需 10ms。 因 此 旋转 延迟 的 是 0 ~ 10ms， 平 均 Sms。 传 输 时 间 相 对 更 
小 ， 因 为 一 个 磁道 上 通常 有 许多 块 ， 所 以 传送 时 间 在 毫秒 级 以 下 。 当 我 们 将 这 3 种 延迟 相 加 ， 典 
型 的 平均 延迟 是 10ms ， 最 大 的 延迟 约 为 它 的 两 倍 。 

例 2.2 让 我 们 考察 一 下 从 Megatron 747 磁盘 读 取 16 384 个 字 节 所 花费 的 时 间 。 首 先 ， 我 们 
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需要 知道 磁盘 的 一 些 计 时 特性 : 
© REALI 7200 转 /min 的 速度 旋转 ， 即 8. 33ms 内 旋转 一 周 。 
。 在 柱 面 之 间 移 动 磁头 组 合 从 起 动 到 停止 花费 1ms， 每 移动 4000 个 柱 面 另 加 ims, KH, 
磁头 在 1. 000 25ms 内 移动 一 个 磁道 ， 从 最 内 图 移动 到 最 外 图 ， 移 动 65 536 个 磁道 的 距离 
大 约 用 17. 38ms。 

。 一 个 磁道 中 扇 区 间 的 空隙 大 约 占 10% 的 空间 。 

让 我 们 计算 一 下 读 16 384 字 节 块 的 最 小 、 最 大 和 平均 时 间 。 最 小 时 间 仅 计算 传输 时 间 。 也 
就 是 说 ， 磁 头 已 经 定位 在 块 所 在 的 磁道 上 ， 而 且 块 的 第 一 个 扇 区 即将 从 磁头 下 面 通 过 。 

由 于 Megatron 747 的 每 个 扇 区 有 4096 字 节 ( 见 例 2. 1 关于 磁盘 的 物理 规格 说 明 ) ， 所 以 该 块 
要 占用 4 个 扇 区 。 为 此 ， 磁 头 必 须 越过 4 个 扁 区 和 扇 区 之 间 的 3 个 间隙。 我 们 回忆 起 ， 间 隙 占 圆 
JAH 10%, MK AHA 90%, MASA AA 256 个 间隙 和 256 个 扇 区 。 由 于 间隙 合 在 一 起 
覆盖 36 度 圆 弧 ， 而 扇 区 覆盖 其 余 的 324 FRM, MUR SRA 个 扇 区 覆盖 的 圆 弧 的 总 度 
BH: 36 x 3/256 + 324 x 4/256 = 5.48 度 。 传 输 时 间 是 (5. 48/360) x0. 008 3 =0. 000 13s, 
BH 5. 48/360 得 到 该 总 度数 占 一 个 圆周 的 分 数 ， 而 0. 008 33s 是 旋转 360 度 所 需 的 时 间 。 

现在 让 我 们 来 看 一 下 读 该 块 的 最 大 的 可 能 时 间 。 在 最 坏 的 情况 下 ， 磁 头 被 定位 于 最 内 圈 柱 
面 ， 而 我 们 要 读 的 块 是 在 最 外 圈 柱 面 上 (或 者 相反 )。 这 样 ， 控 制 器 必须 做 的 第 一 件 事 就 是 移动 
磁头 。 正 如 我 们 在 前 面 已 经 知道 的 ， 移 动 Megatron 747 磁头 跨越 全 部 柱 面 所 花费 的 时 间 大 约 是 
17. 38ms。 这 个 数量 就 是 读 盘 的 寻 道 时 间 。 

当 磁 头 到 达 正 确 的 柱 面 时 ， 可 能 发 生 的 最 糟糕 的 事情 是 ， 所 需要 的 块 的 起 点 刚好 从 磁头 下 
面 越过 。 假 定 我 们 必须 从 块 的 起 点 开始 读 ， 实 际 上 我 们 必须 等 待 完整 一 圈 的 时 间 ， 或 者 说 
8. 33ms， 使 块 的 起 点 再 次 到 达 磁 头 下 。 一 有 旦 发 生 这 种 情况 ， 我 们 必须 等 待 的 仅仅 是 读 整 个 块 的 
0. 13ms 传输 时 间 的 总 量 。 这 样 ， 最 坏 情 况 下 的 等 待 时 间 是 17.38 +8.33 + 0.13 = 25. 84ms。 

最 后 让 我 们 来 计算 读 一 个 块 的 平均 时 间 。 等 待 时 间 的 两 个 要 素 是 容易 计算 的 : 传输 时 间 总 
是 0.13ms, 平均 旋转 等 待 时 间 是 磁盘 旋转 半 周 所 需要 的 时 间 ， 即 4. 17ms。 可 以 假定 ,平均 寻 道 
时 间 正 好 是 越过 一 半 磁 道 所 需要 的 时 间 。 然 而 ， 这 样 计算 并 不 很 准确 ， 因 为 通常 磁头 起 初 是 位 于 
中 间 位 置 附近 的 某 个 位 置 ， 因 此 平均 来 说 ， 磁 头 到 达 所 要 求 柱 面 需 移动 的 距离 小 于 跨越 一 半 的 
磁道 的 距离 。 我 们 将 它 作 为 一 个 习题 ， 说 明 平 均 移动 距离 是 移 过 整个 磁盘 的 1/3 。 

在 Megatron 747 的 磁盘 上 移动 1/3 的 距离 需要 1 + (65 536/3)/4000 = 6. 46ms。 因 此 ， 我 们 佑 
算 的 平均 延迟 时 间 是 6. 46 +4.17 +0. 13 =10.76ms; 上 式 中 3 个 相 加 的 数字 分 别 表示 平均 寻 道 时 
闻 、 平 均 旋 转 延迟 和 平均 传输 时 间 。 口 


2.2.4 习题 
习题 2. 2. 1 Megatron 777 磁盘 具有 以 下 特性 : 
1. 有 10 个 盘面 ， 每 个 盘面 有 100 000 个 磁道 。 
2. 磁道 平均 有 1000 个 扇 区 ， 每 个 肩 区 为 1024 字 节 。 
3. 每 个 磁道 的 20% WATER. 
4. 磁盘 旋转 为 10 000 转 /min。 
5. 磁头 移动 个 磁道 所 需要 的 时 间 是 1 +0. 0002n ms, 
回答 下 列 有 关 Megatron 777 的 问题 。 
a) 磁 盘 的 容量 是 多 少 ? 
b) 如 果 磁 道 是 在 直径 3. 5 英寸 的 圆 面 上 ， 那 么 一 个 磁道 的 遍 区 中 的 平均 位 密度 是 多 少 ? 
c) 最 大 寻 道 时 间 是 多 少 ? 
d) 最 大 旋转 等 待 时 间 是 多 少 ? 
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e) 如 果 一 个 块 是 65 536 字 节 ( 即 64 IK), -~ MRR Se 
1f) 平 均 寻 道 时 间 是 多 少 ? 
8) 平 均 旋转 等 待 时 间 是 多 少 ? 
1 习题 2. 2. 2 假设 Megatron 747 磁道 的 磁头 位 于 磁道 4096 ， 即 跨越 磁道 的 1/16 距离 处 。 假 设 下 一 个 请 求 是 
对 一 随机 磁道 上 一 个 块 。 计 算 读 这 个 块 的 平均 时 间 。 

! 习题 2. 2. 3 证 明 如 果 我 们 将 磁头 从 一 个 随机 的 柱 面 移动 到 另 一 个 随机 的 柱 面 上 ， 平 均 移 动 距离 是 扫描 过 整 
个 磁盘 的 1/3( 忽 略 因 有 限 柱 面 数目 产生 的 边际 效应 ) 。 

! 习题 2. 2. 4 习题 2.2.3 假设 从 一 个 随机 的 磁道 移动 到 另 一 个 随机 的 磁道 。 但 若 每 个 磁道 的 遍 区 数 生 与 磁道 
长 度 (或 半径 ) 成 比例 ， 则 对 所 有 磁道 来 说 ， 每 位 的 密度 是 相同 的 。 同 样 假 设 我 们 需要 将 磁头 从 随机 的 一 
个 扁 区 移动 到 另 一 个 随机 扇 区 上 。 由 于 扇 区 在 磁盘 的 外 国 分 布 更 紧凑 ， 我 们 可 能 希望 磁头 的 平均 移动 距 
离 小 于 扫 过 所 有 磁道 的 1/3。 假 设 磁道 半径 的 范围 是 从 0.75 英寸 到 1.75 英寸 ， 计 算 磁 头 在 两 个 随机 扇 区 
间 移 动 所 要 扫 过 的 平均 磁道 数目 。 

!! 习题 2.2.5 为 了 更 改 磁盘 中 的 一 个 块 ， 我们 必须 将 它 读 到 内 存 中 ， 进 行 修改 ， 然 后 再 写 回 磁盘 中 。 假 设 在 
内 存 中 更 改 所 需 的 时 间 少 于 磁盘 的 旋转 时 间 ， 假 设 磁 盘 控制 器 推迟 磁盘 访问 的 其 他 请 求 直到 该 块 就 绪 以 
被 写 回 磁盘 中 。 对 于 Megatron 747 磁盘 ， 更 改 磁盘 中 的 一 块 需要 多 少时 间 ? 


2.3 ”加速 对 辅助 存储 器 的 访问 


磁盘 访问 一 个 磁盘 块 平 均 要 用 10ms; 但 这 不 等 于 说 某 一 应 用 程序 ， 如 数据 库 系 统 ， 将 数据 
请 求 发 送 到 磁盘 控制 器 之 后 10ms 能 得 到 数据 。 如 果 只 有 一 个 磁盘 ， 磁 盘 也 许 因为 相同 进程 或 其 
他 进程 的 访问 而 繁忙 。 在 最 坏 的 情况 下 ， 磁 盘 访 问 请 求 的 到 达 个 数 超 过 每 10ms 一 次 ， 于 是 这 些 
请 求 会 无 限期 阻塞 。 在 这 种 情况 下 ， 调 度 延 迟 (scheduling latency) 变 为 无 穷 大 。 

我 们 可 以 做 一 些 事 来 减少 磁盘 的 平均 访问 时 间 ， 从 而 改进 吞吐 量 ( 系统 所 能 适应 的 每 秒 的 磁 
盘 访 问 次 数 ) 。 我 们 将 以 讨论 “IO 模型 "是 度量 数据 库 操作 所 花费 时 间 的 正确 模型 开始 。 然 后 ， 
我 们 考虑 一 些 加 速 典型 数据 库 访 问 磁盘 的 技术 

1. 将 要 一 起 访问 的 块 放 在 同一 柱 面 上 上， 这样 我 们 可 以 经 常 避免 寻 道 时 间 ， 也 可 能 避免 旋转 延迟 。 

2. 将 数据 分 隔 存储 在 几 个 相对 较 小 的 磁盘 上 而 不 是 放 在 一 个 大 磁盘 上 。 让 更 多 的 磁头 组 设 
备 分 别 去 访问 磁盘 块 可 增加 在 单位 时 间 内 的 磁盘 块 访问 数量 。 

3.“ 镜 像 ” 磁 盘 一 一 把 两 个 或 者 更 多 的 数据 副本 放 在 不 同 的 磁盘 上 。 该 策略 除了 可 以 保存 数 
据 以 备 某 个 磁盘 可 能 坏 掉 ， 如 同 将 数据 分 隔 存储 几 个 磁盘 上 ， 可 以 让 我 们 一 次 访问 多 个 磁盘 块 。 

4. 在 操作 系统 、DBMS 或 磁盘 控制 器 中 ， 使 用 磁盘 调度 算法 选择 读 写 所 请 求 的 块 的 顺序 。 

5. 预先 将 预期 被 访问 的 磁盘 块 取 到 主 存储 器 中 。 


2.3.1 计算 的 1/O 模型 

让 我 们 设想 一 台 运 行 DBMS 的 简单 计算 机 ， 并 且 试 着 为 以 查询 和 修改 数据 库 等 不 同方 式 访问 
数据 库 的 用 户 提供 服务 。 现 在 ， 假 设 我 们 的 计算 机 有 一 个 处 理 器 ， 一 个 磁盘 控制 器 和 一 个 磁盘 。 
数据 库 本 身 太 大 以 至 于 主 存储 器 中 容纳 不 下 。 数 据 库 的 关键 部 分 可 以 缓冲 存储 在 主 存储 器 中 ， 
但 是 通常 ， 用 户 要 访问 的 数据 库 的 每 一 个 片段 ， 起 初 必须 从 磁盘 中 检索 。 因 此 ， 我 们 假定 下 列 规 
则 ， 规 则 中 定义 了 计算 的 IO 模型。 


VO 开销 的 主导 地 位 : 执行 磁盘 读 写 所 花费 的 时 间或 许 要 比 用 于 操纵 主 存 中 的 数据 
所 花费 的 时 间 长 得 多 。 这 样 ， 块 访问 (磁盘 0) 次 数 就 是 算法 所 需要 的 时 间 的 近似 值 ， 
而 且 应 该 被 最 小 化 。 


例 2.3 假设 我 们 的 数据 库 有 关系 丸 ， 有 一 个 对 元 组 的 查询 请 求 ， 该 元 组 有 一 个 确定 的 键 值 
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5。 最 好 要 在 尺 上 创建 了 一 个 索引 ， 能 够 用 于 标识 带 有 键 值 丰 的 元 组 出 现 的 磁盘 块 。 而 索引 是 否 
告诉 我 们 这 个 元 组 出 现在 块 的 什么 位 置 通常 是 不 重要 的 。 

例如 ， 如 果 我 们 假设 一 个 Megatron 747 磁盘 ， 它 能 够 以 11ms 级 别 的 时 间 读 取 16KB 的 磁盘 
块 。 在 11ms 中 ， 一 个 现代 微 处 理 器 可 以 执行 几 百 万 的 指令 。 然 而 ， 一 旦 块 是 在 主 存 中 ， 搜 索 键 
值 大 将 仅 执行 成 千 条 指令 ， 即 使 采用 最 笨 的 线性 搜索 。 因 此 在 主 存 中 执行 搜索 的 附加 时 间 将 比 块 
访问 时 间 的 1% 还 要 少 ， 可 以 安全 地 忽略 之 。 口 


2.3.2 按 柱 面 组 织 数 据 

由 于 寻 道 时 间 占 平均 块 访问 时 间 的 一 半 ， 将 一 些 可 能 被 一 起 访问 的 数据 ， 例 如 关系 ， 存 储 在 
单个 柱 面 上 或 几 个 临近 的 柱 面 上 是 有 意义 的 。 事 实 上 ， 如 果 我 们 选择 在 一 个 单个 磁道 上 或 者 在 
一 个 柱 面 上 连续 地 读 所 有 块 ， 那 么 我 们 可 以 只 考虑 第 一 次 寻 道 时 间 ( 移 动 到 柱 面 上 的 时 间 ) 和 第 
一 次 旋转 等 待 时间 ( 等 待 第 一 个 块 移动 到 磁头 下 的 时 间 ) ， 而 忽略 其 他 时 间 。 这 样 ， 从 磁盘 上 读 
写 数据 的 速度 接近 于 理论 上 的 传输 速率 。 

例 2.4 假设 关系 尺 需要 Megatron 747 磁盘 的 1024 个 磁盘 块 来 存储 其 元 组 ; 同时 假设 我 们 可 
能 需要 访问 R 的 所 有 元 组 ,例如 我 们 可 能 在 没有 索引 的 情况 下 进行 查找 或 对 R 中 特定 属性 的 值 
求 和 。 如 果 保 存 R 的 磁盘 块 随机 分 布 在 磁盘 中 ， 我 们 需 耗 费 平均 延迟 的 时 间 (10.76ms 一 一 见 例 
2.2) 来 访问 每 个 磁盘 块 ， 这 样 总 共 要 用 去 11s 的 时 间 。 

但 是 ，Megtron 747 的 一 个 柱 面 上 正好 有 1024 个 磁盘 块 。 我 们 可 以 在 一 个 平均 寻 道 时 间 内 
(6. 46ms) 访问 完 所 有 的 磁盘 块 ， 此 后 ， 我 们 可 以 一 个 一 个 地 按 序 读 取 磁 盘 块 。 因 为 一 个 柱 面 有 
16 个 磁道 ， 故 我 们 可 以 在 16 次 磁盘 旋转 中 读 取 柱 面 上 的 所 有 磁盘 块 。16 次 旋转 用 去 16 x8.33 = 
133ms, EJE, WP R 的 总 时 间 是 大 约 139 毫秒 ,我 们 将 R 上 的 操作 提速 了 80 倍 。 口 


2.3.3 使 用 多 个 磁盘 

如 果 我 们 用 多 个 磁盘 (每 个 磁盘 都 具 独 立 磁头 组 ) ， 来 代替 一 个 磁盘 (其 多 个 磁头 锁定 在 一 
起 ) ， 常 常 能 够 提高 我 们 系统 的 性 能 。 图 2-4 给 出 了 这 样 的 安排 ， 在 图 2-4 中 ， 我 们 示 出 了 连接 
到 同一 个 控制 器 的 3 个 磁盘 。 只 要 磁盘 控制 器 、 总 线 和 主 存储 器 能 以 倍速 率 处 理 数据 传输 ， 则 
使 用 ”个 磁盘 的 效果 近似 于 1 个 磁盘 执行 了 mm 次 操作 。 

因此 ,使 用 几 个 磁盘 可 以 提高 数据 库 系统 的 能 力 ， 使 其 处 理 大 量 的 磁盘 访问 请 求 。 但 是 ， 只 要 
系统 没有 超 负荷 运转 ( 超 负荷 运转 是 指 访问 请 求 排队 等 候 ， 要 很 长 时 间 才 能 被 响应 或 者 干脆 被 忽略 
了 ) ， 任 何 一 个 单一 磁盘 块 的 访问 时 间 没 有 变化 。 如 果 我 们 有 几 个 磁盘 ， 则 被 称 为 分 割 (striping ) 
(在 下 一 个 例子 中 进行 描述 ) 的 技术 将 提高 大 数据 库 对 象 ( 占据 很 多 磁盘 块 的 对 象 ) 的 访问 速度 。 

例 2.5 假设 我 们 有 4 个 Megatron 747 磁盘 ， 并 要 以 少 于 例 2. 4 中 在 一 个 磁盘 的 一 个 柱 面 上 保 
存 尺 时 所 需 的 139ms 的 访问 时 间 来 访问 关系 R。 我 们 可 以 通过 将 尺 分 割 并 放 在 4 个 磁盘 中 来 实现 
“分 割 " 。 如 图 2-5 所 示 ， 第 一 个 磁盘 保存 R 的 磁盘 块 1，5，9， 第 二 个 磁盘 保存 2，6，10，…， 第 
三 个 磁盘 保存 3，7，11，…， 最 后 一 个 磁盘 保存 4，8，12，…。 我 们 设法 在 每 个 磁盘 上 使 尺 的 
所 有 磁盘 块 都 在 一 个 单一 柱 面 的 4 个 磁道 上 。 























图 2-5 在 4 个 磁盘 中 分 割 一 个 关系 
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取 回 一 个 磁盘 上 尺 的 256 个 块 需要 平均 寻 道 时 间 (6.46ms) 加 上 4 次 磁盘 的 旋转 时 间 ， 每 次 
旋转 访问 一 个 磁道 ， 即 6. 46 +4 x8.33 =39. 8ms。 当 然 我 们 必须 等 待 4 个 磁盘 中 最 后 完成 的 那个 ， 
极 有 可 能 一 个 磁盘 寻 道 时 间 会 大 大 超过 平均 寻 道 时 间 。 不 管 怎样 ， 当 有 4 个 磁盘 时 ， 我 们 将 访问 
及 的 时 间 平 均 加 速 了 3 售 。 口 


2.3.4 ”磁盘 镜像 

在 某 些 情 况 下 ， 有 两 个 或 更 多 的 磁盘 保留 同样 的 数据 副本 是 有 意义 的 。 这 些 磁 盘 被 称 作 相 
互 镜像 (mirrors) 。 一 个 重要 的 动因 是 ， 凭 借 另 一 个 磁盘 使 数据 不 会 因 一 个 磁头 损坏 而 损坏 ， 因 为 
已 损 磁盘 的 镜像 上 的 数据 仍 是 可 读 的 。 具 有 增强 可 靠 性 设计 的 系统 常 使 用 磁盘 对 互 为 镜像 。 

如 果 我 们 有 n 个 磁盘 ， 每 个 磁盘 保存 相同 的 数据 ， 则 我 们 读 磁 盘 块 的 速率 将 提高 n, AA 
磁盘 控制 器 可 以 分 配 读 请 求 到 ”个 磁盘 中 的 任何 一 个 。 事 实 上 ， 如 果 一 个 聪明 的 控制 器 能 选择 离 
磁头 最 近 的 块 所 在 的 磁盘 读 取 ， 加 速 甚至 会 超过 m 倍 。 不 幸 的 是 ， 写 磁盘 块 的 速率 却 没有 任何 提 
高 。 原 因 是 一 个 新 磁盘 块 必须 被 写 到 n 个 磁盘 的 每 一 个 上 。 


2.3.5 磁盘 调度 和 电梯 算法 

提高 磁盘 系统 吞吐 率 的 另 一 个 有 效 方法 是 让 磁盘 控制 器 在 若干 个 请 求 中 选择 一 个 来 首先 执 
行 。 当 系统 需要 按 一 定 的 顺序 访问 磁盘 块 的 时 候 该 方法 无 法 使 用 ， 但 若 请 求 来 自 独立 的 进程 ， 一 
般 而 言 ， 这 些 请 求 都 会 得 益 于 调度 程序 公平 而 审慎 的 调度 。 

调度 大 量 块 请 求 的 一 个 简单 而 有 效 的 方法 被 称 为 电梯 算法 (elevator algorithm) 。 我 们 把 磁头 
看 作 是 在 做 横 跨 磁盘 的 扫描 ， 从 柱 面 最 内 圈 到 最 外 图， 然后 再 返回 来 ， 正 如 电梯 做 垂直 运动 ， 从 
建筑 物 的 底层 到 顶层 ， 然 后 再 返回 来 。 当 磁头 通过 柱 面 时 ， 如 果 有 一 个 或 多 个 对 该 柱 面 上 的 块 的 
请 求 ， 磁 头 就 停 下 来 。 根 据 请 求 ， 所 有 这 些 块 被 读 或 写 。 然 后 磁头 沿 着 其 正在 行进 的 同一 方向 继 
续 移 动 ， 直 至 遇 到 下 一 个 包含 要 访问 块 的 柱 面 。 当 磁头 到 达 其 行进 方向 上 的 某 一 个 位 置 时 ， 在 该 
位 置 的 前 方 不 再 有 访问 请 求 ， 磁 头 就 朝 相 反方 向 移动 。 

例 2.6 假设 我 们 正在 调度 一 个 Megatron 747 磁盘 ， 我 们 回忆 起 该 磁盘 的 平均 寻 道 时 间 、 旋 
转 等 待 时 间 和 传输 时 间 分 别 为 6.46、4. 17 和 0. 13( 在 本 例 中 ， 所 有 时 间 均 以 ms 计算 ) 。 假 设 某 
一 时 刻 存 在 着 对 柱 面 8000、24000 和 56000 的 块 访问 请 求 。 磁 头 正 位 于 柱 面 8000。 此 外 ,还 有 3 
个 对 块 的 访问 请 求 ， 在 晚 些 时 候 到 来 ， 正 如 图 2-6 所 概括 的 那样 。 例 如 ， 对 柱 面 16000 的 块 的 访 
问 请 求 在 10ms 时 产生 。 

我 们 将 假定 ， 每 个 块 访问 导致 0. 13ms 传输 时 间 和 4. 17ms 平均 旋转 等 待 时 间 ， 即 无 论 寻 道 时 
间 是 多 少 ， 我 们 都 需要 为 每 一 次 块 访问 加 上 4. 3ms。 寻 道 时 间 可 通过 例 2.2 给 出 的 Megatron 747 
的 规则 计算 ， 1 加 上 磁道 数 被 4000 除 (1 + 磁道 数 /500) 。 让 我 们 看 看 ， 如 果 通 过 电梯 算法 调度 会 
发 生 什 么 情况 。 对 柱 面 8000 的 第 一 个 请 求 不 需要 寻 道 ， 因 为 磁头 已 经 定位 在 那里 。 这 样 ， 在 时 
间 4. 3ms 处 第 一 次 访问 将 完成 。 对 柱 面 16000 的 请 求 这 时 尚未 到 达 ， 所 以 我 们 移动 磁头 到 柱 面 
24000 ， 即 我 们 在 向 数字 最 大 的 磁道 方向 扫描 中 所 请 求 的 下 一 “站 ”。 从 柱 面 8000 到 24000 的 寻 道 
花费 5ms， 所 以 我 们 在 时 间 9.3 到 达 ， 并 在 另 一 个 4. 3ms 内 完成 访问 。 这 样 ， 第 二 次 访问 在 时 间 
13.6 完成 。 在 这 个 时 间 之 前 ， 对 柱 面 16000 的 请 求 已 经 到 达 ， 但 是 我 们 是 在 时 间 7. 3 经 过 那个 柱 
面 ， 并 且 在 下 一 次 经 过 之 前 不 会 回 到 那个 位 置 。 

SORE, ， 我 们 接 下 来 移动 到 柱 面 56000， 花 费 9ms 用 于 寻 道 ，4. 3ms 用 于 旋转 和 传输 。 这 样 ， 
第 三 次 访问 在 时 间 26. 9 完成 。 现 在 ， 对 柱 面 64000 的 请 求 已 经 到 达 ， 所 以 我 们 继续 向 外 圈 行 进 。 
我 们 需要 3ms 寻 道 时 间 ， 所 以 本 次 访问 完成 时 间 是 在 26.9+3 +8.3 =34.2 处 。 

在 这 个 时 刻 ， 对 柱 面 40000 的 请 求 已 经 产生 ， 所 以 现在 还 有 本 次 请 求 和 柱 面 16000 的 请 求 。 
于 是 我 们 内 圈 行 进 ， 处理 这 两 次 请 求 。 图 2-7 总 结 了 各 个 请 求 处 理 的 时 间 。 


20 -RA KEERA 


请 求 的 柱 面 到 达 时 间 请 求 的 柱 面 完成 时 间 。 | 
8000 0 8000 4.3 
| 
24000 0 24000 13.6 


















































56000 0 56000 26.9 
16000 10 64000 34.2 
64000 20 40000 45.5 
40000 30 16000 56.8 
2-6 6 个 块 请 求 的 到 达 时 间 图 2-7 采用 电梯 算法 的 块 访问 完成 时 间 


让 我 们 与 诸如 * 先 到 达 先 服务 "这 样 更 朴素 的 方法 来 比较 电梯 算法 的 性 能 。 假 设 头 三 个 请 求 的 顺 
序 是 8000、24000、56000， 头 三 个 请 求 完全 以 同样 的 方式 处 理 。 然 而 ,在 那 一 点 ， 我 们 要 到 柱 面 
16000 去 ， 因 为 那 是 第 四 个 请 求 要 到 达 的 柱 面 。 这 个 请 求 的 寻 道 时 间 是 11. 0ms， 因 为 我 们 从 柱 面 
56000 行进 到 16000， 行 程 超过 了 跨越 磁盘 的 一 半 。 第 五 次 请 求 是 对 柱 面 64000， 要 求 一 个 13ms 的 寻 
道 时 间 ， 最 后 一 次 请 求 是 对 柱 面 40000 ， 其 寻 道 时 间 是 7。 图 2-8 概括 了 由 “ 先 到 达 先 服务 ”调度 法 所 
产生 的 活动 。 两 种 算法 相差 14ms ， 看 起 来 可 能 并 不 是 很 显著 ， 但 是 请 注意 ， 在 这 个 简单 的 例子 中 ， 
请 求 数 较 少 ， 而 且 假 设 在 到 达 六 个 请 求 中 的 第 四 个 之 前 两 种 算法 没有 区 别 。 口 


2.3.6 预 取 和 大 规模 缓冲 

我 们 对 加 快 某 些 辅助 存储 器 的 算法 的 最 后 完成 时 间 
一 个 建议 被 称 为 预 取 (prefetching)， 有 时 也 称 
作 双 缓冲 (double buffering)。 在 一 些 应 用 中 ， 
我 们 能 够 预测 从 磁盘 请 求 块 的 顺序 。 如 果 这 样 ， 
我 们 就 能 在 需要 这 些 块 之 前 将 它们 装 人 主 存 。 
这 样 做 的 好 处 是 我 们 能 较 好 地 调度 磁盘 ， 通 过 
采用 诸如 电梯 算法 等 ， 减 少 访问 块 所 需要 的 平 
均 时 间 。 在 极端 的 情况 下 ， 会 一 直 有 很 多 请 求 
在 等 待 ， 我 们 可 以 使 每 个 请 求 的 寻 道 时 间 非 常 ”图 2.8 采用 先 到 达 先 服务 算法 的 块 访问 完成 时 间 
接近 最 小 寻 道 时 间 而 非 平 均 寻 道 时 间 。 


2.3.7 习题 

习题 2. 3. 1 假设 我 们 正在 为 Megatron 747 磁盘 调度 VO WR, (PRA 
磁头 的 初始 位 置 在 磁道 32000， 图 2-9 的 请 求 已 经 产生 。 在 下 [800 | 0 | 
列 两 种 情况 下 ， 每 一 种 请 求 在 何 时 可 以 完全 得 到 服务 ? 
a) 我 们 采用 电梯 算法 (起 初 朝 任何 一 个 方向 开始 移动 都 是 允许 

的 )。 

b) 我 们 采用 先 到 达 先 服务 调度 。 图 2.9 4 个 块 访问 请 求 的 到 达 时 间 

! 习 题 2. 3. 2 ”假设 我 们 使 用 两 台 Megatron 747 磁盘 互相 作为 镜像 。 然 而 ， 我 们 使 第 一 个 磁盘 的 磁头 保持 在 柱 
面 的 靠 内 的 一 半 ， 第 二 个 磁盘 的 磁头 保持 在 柱 面 靠 外 的 一 半 ， 而 不 是 允许 从 两 个 磁盘 都 能 读 任 何 的 块 。 
假设 读 请 求 是 对 随机 的 磁道 ， 我 们 始终 不 必 去 写 : 
a) 系统 能 够 读 块 的 平均 速率 是 多 少 ? 
b) 这 个 速率 与 无 任何 约束 的 镜像 Megatron 747 磁盘 的 平均 速率 相 比如 何 ? 
e) 你 预计 该 系统 的 缺点 是 什么 ? 

! 习题 2. 3. 3 ”让 我 们 探索 请 求 的 到 达 速 率 、 电 梯 算 法 的 吞吐 量 和 请 求 的 平均 延 时 之 间 的 关系 。 为 使 问题 简 





























到 达 时 间 
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化 ， 我 们 作出 下 列 假设 : 

1. 电梯 算法 的 扫描 总 是 从 最 内 圈 到 最 外 圈 ， 或 者 相反 ， 即 使 是 对 最 两 端 柱 面 没 有 任何 请 求 。 

2. 当 扫 描 启 动 时 ， 只 有 已 经 在 等 待 的 那些 请 求 将 会 被 处 理 ， 在 扫描 正在 前 进 时 到 达 的 请 求 不 会 被 处 理 ， 
即使 磁头 通过 它们 的 柱 面 ©。 

3. 在 一 次 扫描 中 绝 不 会 有 同一 柱 面 上 的 两 个 块 的 请 求 在 等 候 。 
设 4 为 交互 到 达 率 ， 即 块 访问 请 求 之 间 的 时 间 间 隔 。 假 设 系统 处 于 稳定 状态 ， 即 它 已 经 进行 了 很 长 时 

间 的 接收 和 回答 请 求 。 对 于 Megatron 747 磁盘 ， 计 算 下 列 值 (表示 为 4 的 函数 ) : 

a) 执行 一 次 扫描 所 花费 的 平均 时 间 。 

b) 在 一 次 扫描 中 得 到 服务 的 请 求 数 。 

c) 一 次 请 求 等 候 服务 的 平均 时 间 。 

1 习题 2.3.4 ”如 果 我 们 要 从 一 个 柱 面 上 读 & 个 随机 选 定 的 块 ， 在 我 们 经 过 所 有 的 块 之 前 ,平均 来 说 我 们 必须 
绕 着 柱 面 走 多 远 ? 

! 习题 2. 3. 5 在 例 2.5 中 我 们 看 到 ， 如 何 通过 将 要 排序 的 数据 分 散 到 4 个 磁盘 上 ， 以 能 允许 一 个 以 上 的 块 同 
时 被 读 。 假 设 我 们 的 数据 被 随机 存放 在 n 个 磁盘 中 ， 对 数据 的 请 求 也 是 随机 的 。 由 于 必须 考虑 各 请 求 之 间 
所 存在 的 依赖 (请 看 第 7 章 ， 例 如 关于 这 一 约束 的 动因 ) ， 请 求 必 须 按照 到 达 的 次 序 执行 。 这 样 一 个 系统 
的 平均 吞吐 量 是 多 少 ? 


2.4 磁盘 故障 


在 本 节 ， 我们 将 考虑 磁盘 可 能 发 生 故 障 的 方式 ， 以 及 采取 什么 措施 来 减轻 这 些 故 障 。 

L 故障 的 最 普通 的 形式 是 一 种 间断 性 故障 ， 读 或 写 一 个 扁 区 的 某 次 尝试 没有 成 功 ,但 是 经 
过 反复 尝试 ， 又 能 成 功 地 读 或 写 。 

2. 故障 的 一 种 更 严重 的 形式 是 ， 在 这 种 故障 中 一 个 或 多 个 二 进 制 位 永久 地 损坏 ， 不 管 我 们 
尝试 多 少 次 ， 正 确 地 读 一 个 万 区 成 为 不 可 能 ， 这 种 错误 形式 称 为 介质 损坏 。 

3. 一 种 相关 的 错误 类 型 是 写 故 障 ， 在 这 种 故障 中 ， 当 我 们 企图 写 一 个 扇 区 时 ， 既 不 能 正确 
地 写 ， 也 不 能 检索 先前 写 人 的 扇 区 。 一 种 可 能 的 原因 是 写 扇 区 的 过 程 中 发 生 了 供电 中 断 。 

4. 磁盘 故障 的 最 严重 形式 是 磁盘 崩溃 ， 在 这 种 故障 中 ， 整 个 磁盘 突然 地 变 为 永久 不 可 读 。 

我 们 将 讨论 检查 间断 性 故障 的 一 种 方法 : 奇偶 校 验 。 我 们 还 将 讨论 “稳定 存储 ”" ， 这 是 一 种 
组 织 磁盘 的 技术 ， 使 得 介质 损坏 或 者 写 故障 不 会 导致 数据 永久 性 丢失 。 最 后 ， 我 们 讨论 一 般 被 统 
称 为 “RAID” 的 应 对 磁盘 崩溃 问题 的 技术 。 


2.4.1 间断 性 故障 

如 果 我 们 尝试 读 一 个 磁盘 块 ， 但 该 磁盘 块 的 正确 内 容 没 有 被 传送 到 磁盘 控制 器 中 ， 就 是 一 
个 间断 性 故障 发 生 了 。 如 果 控 制 器 能 以 某 种 方式 判断 出 磁盘 块 的 好 坏 ( 像 我 们 在 2. 4. 2 节 讨 论 的 
那样 ) ， 在 读 到 坏 数据 后 ， 控 制 器 可 以 重新 发 送 读 请 求 ， 直 到 该 扇 区 被 正确 读 取 ， 或 者 根据 某 种 
Wi, Shh 100 次 再 停止 。 

同样 ， 控 制 器 可 以 尝试 写 一 个 肩 区 , 但 最 终 被 写 人 的 内 容 也 许 不 是 原来 想 要 写 人 的 。 唯 一 的 
检测 写 正 确 的 方法 是 让 磁盘 再 转 一 遍 从 而 再 读 一 次 磁盘 块 。 执 行 校 验 的 一 个 直截了当 的 方法 是 
读 这 个 扇 区 ， 并 且 与 我 们 打算 写 的 扇 区 进行 比较 。 然 而 ， 与 在 磁盘 控制 器 中 进行 全 面 比 较 相 比 ， 
设法 读 这 个 扁 区 并 且 看 看 其 状态 是 否 为 “好 ”更 为 简单 。 如 果 这 样 ， 我 们 就 假定 写 是 正确 的 ， 而 


日” 这 个 假设 的 目的 在 于 避免 不 得 不 处 理 这 样 一 个 事实 : 电梯 算法 的 一 次 典型 扫描 开始 进行 得 很 快 ， 因 为 刚刚 经 过 
的 这 些 区 域 很 少 有 等 待 着 的 请 求 ， 当 磁头 移 人 最 近 未 曾经 过 的 一 个 磁盘 区 域 时 ， 扫 描 速度 下 降 。 就 其 本 身 而 言 ， 
分 析 请 求 密度 在 扫描 行进 过 程 中 变化 的 方法 是 一 项 有 趣 的 实践 。 
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”如 果 状 态 是 “ 坏 ”， 那 么 显然 写 是 不 成 功 的 ， 并 且 必 须 重 写 。 


2.4.2 校 验 和 

一 个 读 操作 如 何 能 决定 一 个 肩 区 的 好 / 坏 状 态 ， 起 初 看 起 来 是 不 可 思议 的 。 然 而 ， 用 于 当前 
磁盘 驱动 器 中 的 这 项 技术 是 相当 简单 的 : 每 个 筷 区 有 若 于 个 附加 位 ， 称 为 校 验 和 (checksum ) , 
附加 位 的 设置 取决 于 存储 在 那个 扇 区 的 数据 位 的 值 。 在 读 出 时 ， 如 果 我 们 发 现 校 验 和 对 数据 位 
不 适合 ， 那 么 我 们 就 知道 有 读 错 误 。 如 果 校 验 和 正确 ， 磁 盘 块 读 取 不 正确 仍然 有 很 小 的 可 能 ， 但 
是 通过 使 用 许多 校 验 位 ， 我 们 可 以 使 未 被 发 现 的 读 错 误 的 概率 任意 小 。 

校 验 和 的 一 种 简单 形式 是 基于 肩 区 内 所 有 位 的 奇偶 性 (parity) 。 如 果 在 二 进 制 的 集合 中 有 奇 
数 个 1， 我 们 就 说 数据 有 奇 数 奇 偶 性 并 增加 值 为 1 的 奇偶 位 。 同 样 ， 如 果 在 二 进 制 位 的 集合 中 有 
偶数 个 1， 我 们 就 说 数据 位 有 偶数 奇偶 性 并 增加 值 为 0 的 奇偶 位 。 从 而 : 

。 在 二 进 制 位 的 集合 与 它们 的 奇偶 位 中 ，1 的 个 数 总 是 偶数 。 

当 我 们 写 一 个 扁 区 时 ,磁盘 控制 器 能 计算 出 奇偶 位 ， 并 将 它 附加 到 肩 区 中 被 号 的 一 进 制 位 
的 序列 中 。 这 样 ， 每 个 扇 区 将 有 偶数 奇偶 性 。 

例 2.7 如 果 扇 区 中 二 进 制 位 序列 是 01101000， 那么 就 有 奇数 个 1， 所 以 奇偶 位 是 1。 如 果 
这 个 序列 后 面 加 上 它 的 奇偶 位 ， 我 们 便 有 011010001。 如 果 所 给 的 数据 位 序列 是 11101110, 我们 
有 偶数 个 1， 而 奇偶 位 为 0。 序 列 后 面 加 上 它 的 奇偶 位 便 是 111011100。 请 注意 ， 每 一 个 加 上 了 一 
个 奇偶 位 构成 的 9 位 序列 有 偶数 奇偶 性 。 口 

在 读 或 写 数据 位 及 其 奇偶 位 的 过 程 中 ， 任 何 一 个 位 错误 都 会 导致 具有 奇数 奇偶 性 的 位 序列 ; 
也 就 是 说 1 的 个 数 是 奇数 。 计 算 1 的 个 数 ， 并 且 如 果 一 个 扁 区 有 奇数 奇偶 性 就 判定 存在 一 个 错 
TR, 这 对 于 磁盘 控制 器 来 说 是 轻而易举 的 。 

当然 ， 记 区 可 能 有 一 个 以 上 的 位 出 错 。 如 果 这 样 ， 二进制 位 1 的 个 数 为 偶数 的 可 能 性 是 
50% ， 而 且 检 测 不 到 错误 。 如 果 保 持 若干 个 奇偶 校 验 位 ， 我 们 就 能 增加 检测 出 错误 的 机 会 。 例 
如 ， 我 们 可 保持 8 位 奇偶 校 验 位 ， 其 中 一 位 用 于 检测 每 个 字 节 的 第 一 位 ， 一 位 用 于 检测 每 个 字 节 
的 第 二 位 ，. 等 等 ， 直 到 第 八 位 奇偶 位 和 每 个 字 节 的 最 后 一 位 。 那 么 ， 关 于 大 规模 的 错误 ， 任 何 一 
个 奇偶 位 将 检测 出 错误 的 可 能 性 是 50% , 8 位 都 检测 不 出 错误 的 机 会 仅仅 是 1/2 ， 或 1/256。 
般 地 说 ， 如 果 我 们 用 个 独立 位 作为 校 验 码 ， 漏 掉 一 个 错误 的 机 会 仅 为 1/2 。 例 如 ， 我 们 用 4 F 
节 作 为 校 验 码 ， 那 么 大 约 在 40 亿 次 中 仅 有 一 次 错误 不 能 被 检测 出 来 。 


2.4.3 稳定 存储 

尽管 校 验 和 几乎 的 确 能 正确 地 检测 出 介质 故障 或 读 写 故障 的 存在 ， 但 是 它 不 能 帮助 我 们 纠 
正 错 误 。 此 外 ， 当 写 的 时 候 我 们 有 可 能 陷 人 一 种 困境 : 我 们 覆盖 了 一 个 扇 区 先前 的 内 容 ， 但 是 不 
能 读 出 新 的 内 容 。 这 种 现象 可 能 是 严重 的 ， 例 如 ， 如 果 我 们 正 准 备 将 一 个 小 的 增 额 加 到 账目 余额 
中 去 ， 而 现在 原始 余额 和 新 的 余额 均 已 丢失 。 如 果 我 们 能 确信 ， 扇 区 的 内 容 不 是 新 的 余额 就 是 旧 
的 余额 ， 那 么 我 们 只 需要 判定 写 操 作 是 否 成 功 即 可 。 

为 了 处 理 上 述 问 题 ， 我 们 可 以 在 一 个 磁盘 或 多 个 磁盘 执行 一 个 被 称 为 稳定 存储 (stable stor- 
age) 的 策略 。 通 常 的 思想 是 ， 扁 区 是 成 对 的 ， 每 一 对 代表 一 个 扁 区 内 容 和 站。 我 们 把 代表 站 的 扇 区 
对 分 别称 作 “ 左 ”拷贝 X, 和 “ 右 ” 找 贝 X,。 我 们 进一步 假定 这 两 个 拷贝 用 足够 多 的 奇偶 校 验 位 来 
写 ， 以 便当 考虑 奇偶 校 验 时 ， 我 们 能 排除 看 上 去 像 好 扇 区 而 实际 上 是 坏 扇 区 的 可 能 性 。 这 样 ， 我 
们 假定 ， 如 果 读 函数 对 XX, RX, 返回 一 个 好 值 w， 那 么 w 是 的 真实 值 。 稳 定 存储 的 写 策略 是 : 

1. 写 站 的 值 到 和 ,。 检 查 是 否 返 回 值 的 状态 为 “好 ”; 即 在 写 入 的 拷贝 中 奇偶 校 验 位 是 正确 
的 。 如 果 不 是 “好 ”， 则 反复 写 。 如 果 在 若干 次 写 尝试 之 后 ， 我 们 仍 没 有 成 功 地 将 站 写 人 X,， 可 
以 认为 在 该 扇 区 中 有 一 个 介质 故障 ， 必 须 采 用 诸如 以 备用 鹿 区 代替 X, 这 样 的 补救 。 
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2. 对 X 重复 (1)。 
稳定 存储 读 策 略 是 交替 尝试 读 取 X, 和 X 直到 返回 一 个 好 值 。 预 先 设 定 一 个 大 数字 ， 若 尝试 
次 数 超过 这 个 数字 后 仍 没 有 好 值 返 回 ， 才 确定 下 是 真正 不 可 读 。 


2.4.4 稳定 存储 的 错误 处 理 能 力 

在 2.4.3 节 中 描述 的 策略 能 够 校正 若干 不 同 种 类 的 错误 。 这 里 我 们 对 此 进行 概略 描述 。 

1. 介质 故障 。 在 将 荆 存 人 扇 区 外 ,和 XX 后 ， 如 果 两 者 之 一 出 现 一 个 介质 故障 并 且 变 为 永久 
不 可 读 ， 我 们 总 是 能 从 另 一 个 扇 区 读 取 A, WR X, MX, 两 个 扇 区 都 坏 了 ， 我 们 将 不 能 读 取 工 ， 
但 是 这 种 情况 是 极其 少见 的 。 

2. 号 故 障 。 假 设 当 我 们 写 X 的 时 候 ， 有 一 个 系统 故障 ， 例 如 电源 断 电 。 那 么 XX 在 主 存 中 被 
丢失 是 可 能 的 ， 同 时 正 被 写 人 的 的 拷贝 也 将 被 窜改 。 例 如 ， 半 个 肩 区 可 能 被 写 人 的 部 分 新 
值 ， 与 此 同时 另 一 半 扇 区 保留 着 原来 的 值 。 当 系统 变 为 可 用 ， 并 且 我 们 测试 和 AX, 时 ， 我 们 确 
- 信和 能 够 决定 和 的 旧 值 或 者 新 值 。 可 能 的 情况 有 以 下 几 种 : 

a) 故 障 在 我 们 写 X, WARRE. WARMER X 的 状态 是 “ 坏 " 。 然 而 ， 我 们 从 来 没有 
写 XY:， 它 的 状态 将 是 “好 ” (除非 在 X: 有 一 个 同时 发 生 的 介质 故障 ， 这 种 可 能 性 极 小 ) 。 这 样 ， 
我 们 就 能 够 获得 蕊 的 旧 值 。 我 们 也 可 以 将 Xs 拷贝 到 X, BMX, 的 故障 。 

b) 故 障 在 我 们 写 X, 之 后 发 生 。 那 么 ， 我 们 预计 X 将 有 状态 “好 ”， 并且 我 们 可 以 从 X, ER 
的 新 值 。 因 为 XX; 可 能 是 部 的 正确 值 ， 也 可 能 不 是 ， 我 们 也 应 该 将 X, 复制 到 Xe 中 。 


2.4.5 ”从 磁盘 月 涡 中 恢复 

磁盘 故障 最 严重 的 状态 是 “磁盘 损坏 ”或 者 “磁头 损坏 ”， 其 中 数据 被 永久 性 地 破坏 。 如 果 数 
据 没有 备份 到 另 一 种 介质 中 ， 例 如 我 们 在 2.3.4 节 中 讨论 的 磁带 备份 系统 ， 或 者 一 个 镜像 磁盘 ， 
那么 我 们 就 根本 不 可 能 做 任何 事情 来 恢复 数据 。 这 种 状态 对 于 重要 的 DBMS 应 用 诸如 银行 和 其 他 
金融 应 用 来 说 是 一 种 灾难 。 

已 经 有 许多 开发 成 功 的 方案 用 以 减少 由 磁盘 骨 溃 带 来 的 丢失 数据 的 风险 。 它 们 通常 涉及 元 
余 技 术 ， 宛 余 技 术 扩展 了 我 们 在 2.4. 2 节 中 讨论 的 奇偶 校 验 思想 ， 以 及 在 2.4.3 节 中 讨论 的 复制 
扇 区 的 思想 等 。 这 类 策略 的 一 般 术 语 是 RAID( Redundant Array of Independent Disk， 独 立 磁盘 的 宛 
余 阵 列 ) 。 

磁盘 骨 溃 发 生 率 一 般 由 平均 失效 时 间 (mean time to failure) 来 衡量 ,在 此 之 后 ，50% 的 磁盘 会 
坏 掉 或 者 不 可 恢复 。 就 如 今 的 磁盘 而 言 ， 其 平均 失效 时 间 是 10 年 。 我 们 将 做 一 个 方便 的 假设 ， 
如 果 平 均 失 效 时 间 是 年 ， 则 在 任何 一 年 内 ， 能 用 的 磁盘 中 的 1/n 会 发 生 故 障 。 事 实 上 ， 磁 盘 像 
大 多 数 电子 设备 一 样 ， 早 晚会 坏 掉 。 实 际 上 ， 小 比例 的 有 生产 缺陷 的 磁盘 会 导致 其 过 早 损坏 ， 而 
其 他 磁盘 则 可 以 使 用 许多 年 ， 直 到 磨损 报废 。 

然而 ， 磁 盘 崩 省 的 平均 时 间 与 数据 丢失 的 平均 时 间 未 必 是 相同 的 。 原 因 是 存在 着 若干 可 用 
的 方案 可 以 保证 ， 如 果 一 个 磁盘 发 生 故 障 ， 有 另外 的 盘 帮 助 恢复 故障 盘 的 数据 。 在 本 节 的 剩余 部 
分 ， 我 们 将 研究 最 常见 的 方案 。 

这 些 方案 的 每 一 个 都 有 一 个 或 多 个 保存 数据 的 磁盘 (我 们 将 称 这些 盘 为 数据 盘 ) ， 再 加 上 一 
个 或 多 个 保存 信息 的 磁盘 ， 这 些 信息 完全 由 数据 盘 的 内 容 所 决定 。 后 者 被 称 为 宛 余 盘 。 当 一 个 数 
据 盘 或 元 余 盘 发 生 磁 盘 前 溃 时 ， 其 他 的 磁盘 可 用 于 恢复 故障 磁盘 ， 从 而 没有 任何 永久 性 信息 
ER. 


2.4.6 ”作为 元 余 技 术 的 镜像 
最 简单 的 方案 是 镜像 各 个 磁盘 ， 正 如 2.3. 4 节 讨 论 过 的 。 我 们 将 称 一 个 磁盘 为 数据 盘 ， 男 一 
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个 是 元 余 盘 ; 在 本 方案 中 ， 哪 个 作 数据 盘 ， 哪 个 作 宛 余 盘 无 关 紧 要 。 作 为 防止 数据 丢失 的 镜像 ， 
常常 被 称 为 RAID 1 级 。 它 给 出 一 个 存储 器 丢失 平均 时 间 ， 正 如 下 面 的 例子 所 示 ， 这 个 时 间 比 磁 
盘 故 障 平 均 时 间 长 得 多 。 事 实 上 ， 借 助 镜像 和 我 们 讨论 的 其 他 宛 余 方 案 ， 数 据 丢 失 的 唯一 方式 
是 ， 在 第 一 个 磁盘 损坏 正在 被 修复 的 同时 ， 第 二 个 磁盘 也 损坏 了 。 

” 例 2.8 假设 每 一 个 磁盘 的 平均 故障 时 间 为 10 年 。 这 意味 着 一 个 磁盘 出 现 故障 的 概率 是 每 
年 10% 。 如 果 磁 盘 被 镜像 ， 当 发 生 磁 盘 故 障 时 ， 我 们 只 需要 用 一 个 好 盘 代替 它 ， 并 且 将 镜像 磁 
盘 拷 贝 到 新 磁盘 上 。 最 终 ， 我 们 有 两 个 相互 镜像 的 磁盘 ， 并 且 系 统 被 恢复 到 它 的 早先 的 状态 。 

可 以 造成 错误 的 唯一 事件 是 在 拷贝 期 间 镜像 磁盘 又 出 现 故 障 。 现 在 ， 至 少 有 部 分 数据 两 个 
拷贝 都 已 经 丢失 ， 而 且 没 有 任何 办 法 恢复 。 

但 是 ， 这 类 事件 序列 发 生 的 频繁 程度 如 何 呢 ? 假设 替换 故障 磁盘 的 过 程 花费 3 小 时 ， 这 是 一 
天 的 1/8， 或 者 一 年 的 1/2920。 由 于 我 们 假定 磁盘 的 平均 寿命 是 10 年 ， 拷 贝 过 程 中 发 生 故 障 的 
可 能 性 是 (1/10) * (1/2920), RÆ 1/29 200。 如 果 一 个 磁盘 每 10 年 发 生 一 次 故障 ， 那 么 两 个 磁 
盘 之 一 平均 5 年 发 生 一 次 故障 。 这 些 故 障 的 每 29 200 个 中 有 一 个 导致 数据 丢失 。 换 名 话说 ， 导 
致 数据 丢失 的 平均 时 间 是 5 x29 200 = 146 000 年 。 口 


2.4.7 HBk 

尽管 镜像 磁盘 是 减少 磁盘 崩溃 造成 数据 丢失 的 可 能 性 的 一 种 有 效 方法 ,但 它 所 使 用 的 元 余 
盘 与 它 所 拥有 的 数据 盘 一 样 多 。 常 常 被 称 为 RAD 4 级 的 另 一 种 方法 ， 仅 使 用 一 个 元 余 盘 ， 不管 
有 多 少数 据 盘 。 我 们 假设 磁盘 是 相同 的 ， 所 以 我 们 能 给 每 一 个 磁盘 编号 ， 从 1 Sdn, YR, A 
有 磁盘 上 的 所 有 块 有 着 相同 二 进 制 位 数 ; 例如 ， 在 我 们 运行 示例 的 Megatmo 747 磁盘 中 的 16 384 
字 节 块 有 8 x16 384 = 131 072 位 。 在 元 余 盘 中 , 第 i 块 由 所 有 数据 盘 的 第 i 块 奇偶 校 验 位 组 成 。 
也 就 是 说 ， 所 有 第 i 块 的 第 j 位， 包括 数据 盘 和 宛 余 盘 ， 在 它们 中 间 必 须 有 偶数 个 1， 而 我 们 总 
是 选取 和 宛 余 盘 的 位 使 这 个 条 件 为 真 。 

在 例 2.7 中 ， 我 们 看 到 过 如 何 使 条 件 为 真 。 如 果 有 奇数 个 数据 盘 的 第 7 位 为 1， 在 元 余 盘 中 ， 
我 们 选取 位 7 为 1; 如 果 在 数据 盘 当 中 的 第 7 位 有 偶数 个 1 ， 我 们 选取 宛 余 盘 的 位 / 为 0。 这 个 计算 
的 术语 是 模 2 和 (module-2 sum) 。 也 就 是 说 ， 如 果 在 若干 个 位 当中 有 偶数 个 1， 则 这 些 位 的 模 2 
和 为 0; 如 果 有 奇数 个 1 ， 则 模 2 和 为 1。 

例 2. 9 举 一 个 极为 简单 的 例子 ,假定 块 仅 由 一 个 字 节 一 一 8 位 组 成 。 令 有 三 个 数据 盘 ， 分 
别称 为 盘 I、 盘 2 和 盘 3， 还 有 一 个 宛 余 盘 ， 称 为 盘 4。 让 我 们 集中 考虑 所 有 这 些 盘 的 第 一 块 。 如 
果 在 数据 盘 的 第 一 块 中 ， 有 如 下 位 序列 : 


#1: 11110000 
盘 2: 10101010 
#3, 00111000 
ABZ TAR EE BY SBOE A AF RRE: 
#4; 01100010 
注意 ; 4 个 8 位 序列 中 的 每 一 个 位 置 上 是 如 何 分 布 着 偶数 个 1 的 。 在 位 置 1、2、4、5 和 7 有 


两 个 1， 在 位 置 3 有 4 个 1， 而 在 位 置 6 和 8 有 零 个 1。 o 
读 
从 一 个 数据 盘 读 块 与 从 任何 一 个 磁盘 读 块 没有 什么 差别 。 通 常 没 有 任何 理由 去 读 宛 余 盘 ， 
但 是 我 们 能 够 从 宛 余 盘 读 。 
写 
当 我 们 写 一 个 数据 盘 的 一 个 新 块 的 时 候 ， 我 们 不 仅 需 要 改变 那个 块 ， 而 且 需 要 改变 元 余 盘 
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的 相应 的 块 ， 以 便 它 能 继续 保持 为 所有 数据 盘 相 应 块 的 奇偶 校 验 。 一 个 朴素 的 方法 是 读 取 nn 个 数 
据 盘 的 相应 块 ， 取 它们 的 模 2 和 ， 并 重 写 元 余 盘 的 块 。 这 个 方法 要 求 不 被 重 写 的 数据 块 的 ” -1 
次 读 ， 被 重 写 数据 块 的 一 次 写 ， 以 及 郊 余 盘 块 的 一 次 写 。 这 样 总 数 是 ”+ 1 次 磁盘 TO。 

一 种 更 好 的 方法 是 只 关注 正在 被 重 写 的 数据 块 i 的 老 版 本 和 新 版 本 。 如 果 我 们 取 它 们 的 模 2 
和 ， 我 们 就 可 以 知道 ， 所 有 磁盘 上 编号 i 的 块 中 哪个 位 置 的 1 的 总 数 有 变化 。 由 于 这 些 变 化 总 是 
一 种 方式 ,1 的 个 数 由 任意 一 个 偶数 变 成 了 一 个 奇数 。 如 果 我 们 改变 元 余 块 的 相同 位 置 ， 那 么 每 
个 位 置 的 1 的 个 数 重新 变 为 偶数 。 使 用 4 个 磁盘 WO， 我 们 可 以 执行 下 列 计算 : 

1. 读 要 被 改变 的 数据 盘 上 的 旧 值 。 

2. TARAK, 

3. 写 新 数据 块 。 

4. 重新 计算 并 写 元 余 盘 的 块 。 


模 2 和 代数 
了 解 有 关 位 向 量 的 模 2 和 运算 的 代数 定律 ， 对 于 理解 奇偶 校 验 所 采用 的 一 些 策略 可 能 是 
很 有 帮助 的 。 我 们 将 用 符号 四 来 表示 这 种 操作 。 例 如 ，1100 ® 1010 =0110。 下 面 是 关于 力 操 
作 的 一 些 有 用 的 定律 。 
e XAR: xOy=y Ox, 
e 结合 率 : «Oly Oz) =(x Oy) Oz, 


。 适当 长 度 的 全 0 向 量 (我 们 用 0 表示 ) 是 四 的 恒 等 元 素 ; 即 x 田 0=0 四 x=x。 


© 四 是 其 自身 的 北 : x 四 x=0。 作 为 一 个 有 用 的 结论 ， 如 果 * 四 y=z， 则 我 们 可 以 在 等 
号 两 边 “ 加 ”"x*， 得 到 y =x Or, 


例 2. 10 ”假设 三 个 数据 盘 的 第 一 块 如 例 2.9， 为 
#1: 11110000 
#2: 10101010 
#3: 00111000 
另 假设 第 二 个 磁盘 上 的 块 由 10101010 BH 11001100, Ri RA2 上 旧 值 与 新 值 的 模 2 和 ， 得 到 
01100110。 这 个 结果 告诉 我 们 ， 必 须 改 变 元 余 盘 第 一 块 的 位 置 2、3、6、7 的 值 。 我们 读 该 块 : 
01100010。 我 们 以 通过 改变 适当 位 置 而 得 到 的 新 块 替换 这 个 块 ; 事实 上 ， 我 们 是 以 匈 余 盘 自 身 与 
01100110 的 模 2 和 替换 宛 余 块 ， 得 到 00000100。 表 示 新 宛 余 块 的 另 一 个 方法 是 ， 它 是 正在 被 重 
写 的 块 的 旧版 本 与 新 版 本 以 及 元 余 块 旧 值 的 模 2 和 。 在 我 们 的 示例 中 ， 四 个 盘 ( 三 个 数据 盘 和 一 
TRE) 的 第 一 块 ， 在 写 人 盘 2 上 的 块 和 元 余 块 的 必要 的 重新 计算 之 后 已 经 变 为 : 
盘 1: 11110000 
#2: 11001100 
# 3; 00111000 
#4: 00000100 
请 注意 ， 在 上 述 块 中 ， 每 一 列 依旧 有 偶数 个 1 。 口 
故障 恢复 
现在 让 我 们 来 考虑 ， 如 果 磁 盘 之 一 崩溃 了 ， 我 们 应 该 做 些 什 么 。 如 果 故 障 盘 是 元 余 盘 ， 我 们 
就 换 一 个 新 磁盘 ， 并 重新 计算 元 余 块 。 如 果 故 障 盘 是 数据 盘 之 一 ， 那 么 我 们 需要 换 一 个 好 盘 ， 并 
且 根 据 其 他 盘 重 新 计算 它 的 数据 。 重 新 计算 任何 丢失 数据 的 规则 实际 上 是 简单 的 ， 并 且 不 依赖 
于 是 数据 盘 故 障 ， 还 是 宛 余 盘 故障 。 由 于 我 们 知道 ， 所 有 磁盘 相应 位 的 1 的 个 数 是 偶数 ， 它 遵循 
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如 下 规则 : 

© 任何 位 置 的 位 是 所 有 其 他 磁盘 的 相应 位 置 所 有 位 的 模 2 和 。 

如 果 谁 不 相信 上 述 规 则 ， 谁 就 只 需要 考虑 两 种 情况 。 如 果 所 讨论 的 位 是 1， 那 么 相应 位 1 的 
个 数 必须 是 奇数 ， 所 以 它们 的 模 2 和 是 1。 如 果 所 讨论 的 位 是 0， 那 么 相应 位 当中 有 偶数 个 1， 并 
且 它 们 模 2 和 是 0。 

例 2.11 假设 盘 2 故障 。 我 们 需要 重新 计算 替换 盘 的 各 个 块 。 依 照例 2. 9 ， 让 我 们 看 看 如 何 
重新 计算 第 二 盘 的 第 一 个 块 。 已 经 给 出 第 一 和 第 三 数据 盘 以 及 元 余 盘 的 相应 块 ， 所 以 总 的 情况 
QUT: 

#1: 11110000 
盘 2: 77227777 
盘 3: 00111000 
#4; 01100010 


如 果 取 每 一 列 的 模 2 和 ， 我 们 推导 出 丢失 的 块 是 10101010， 正 是 例 2.9 一 开始 的 情况 。 O 
2.4.8 一 种 改进 : RAID 5 

TE 2.4.7 节 中 描述 的 RAID 4 级 策略 能 有 效 地 保护 数据 ， 除 非 存在 两 个 几乎 同时 发 生 的 磁盘 
崩溃 。 然 而 ， 它 有 一 个 瓶颈 ， 让 我 们 重新 分 析 一 下 写 一 个 新 数据 块 的 过 程 ， 就 可 以 看 到 这 个 缺 
点 。 无 论 我 们 采用 什么 更 新 硬盘 的 方案 ， 我 们 都 需要 读 和 写 宛 余 盘 的 块 。 如 果 有 个 数据 盘 ， 那 
么 对 宛 余 盘 的 磁盘 写 次 数 ， 将 是 任何 一 个 数据 盘 平 均 磁 盘 写 次 数 的 = 倍 。 

然而 ， 正 如 我 们 在 例子 2. 11 中 所 看 到 的 ， 恢 复 的 规则 对 数据 盘 和 宛 余 盘 是 一 样 的 ; 取 其 他 
磁盘 相应 位 的 模 2 和 。 这 样 ， 我 们 就 不 必 把 一 个 盘 作 为 元 余 盘 ， 而 把 其 他 盘 作为 数据 盘 。 相 反 ， 
我 们 可 以 把 每 个 磁盘 作为 某 些 块 的 元 余 盘 来 处 理 。 这 种 改进 通常 称 为 RAID 5 级 。 

lon, WRA n +1 个 编号 为 0 Bn 的 磁盘 ， 如 果 j 是 当 i 被 n+1 除 时 的 余数 。 我 们 可 以 把 
盘 7 的 第 ;个 柱 面 看 作 宛 余 。 

例 2. 12 在 我 们 运行 的 例子 中 , n=3, REA 4 个 磁盘 。 第 一 个 盘 编号 为 0， 将 作为 编号 为 
4. 8. 12 等 柱 面 的 元 余 ， 因 为 当 被 4 除 时 ， 这 些 是 余数 为 0 的 数字 。 编 号 为 1 的 盘 将 作为 编号 为 
1、5、9 等 块 的 元 余 ， 盘 2 是 块 2、6、10 等 的 元 余 ， 而 盘 3 是 块 3、7、11 等 的 元 余 。 

结果 ， 每 个 盘 的 读 负荷 和 写 负荷 是 一 样 的 。 如 果 所 有 的 块 有 相同 的 可 能 性 被 写 ， 那 么 对 于 一 
次 写 ， 每 个 盘 有 1/4 的 机 会 ， 要 写 的 块 是 在 那个 盘 上 。 如 果 不 是 这 样 ， 那 么 它 有 1/3 的 机 会 ， 作 
为 那个 块 的 宛 余 盘 。 这 样 ，4 个 盘 中 的 每 一 个 被 涉及 写 的 机 会 是 1/4 +3/4 x 1/3 =1/2, 口 


2.4.9 多 个 盘 崩 演 时 的 处 理 

有 一 个 纠 错 码 原理 ， 人 允许 我 们 处 理 多 个 磁盘 (数据 盘 或 元 余 扒 ) 崩溃 ， 前 提 是 我 们 使 用 足够 
多 的 元 余 盘 。 这 个 策略 导致 最 高 的 RAID“ 级 ”一 一 RAID 6 级 。 这 里 我 们 仅 给 出 一 个 简单 的 例子 ， 
例子 中 两 个 同时 发 生 的 导演 是 可 纠正 的 ， 并 且 该 策略 是 基于 最 简单 的 纠 错 码 ， 称 为 海 明 码 ( Ham- 
ming code) 。 

在 我 们 的 描述 中 ， 我 们 关注 带 有 7 MRRP AS, RSE 至 7。 前 4 个 盘 是 数据 
盘 , 盘 5 至 盘 7 是 宛 余 盘 。 数 据 盘 和 元 余 盘 之 间 的 关系 被 概括 为 0 和 1 组 成 的 3 x7 矩阵， 如 图 
2-10 所 示 。 请 注意 : 

a) 除 了 全 0 列 之 外 的 ， 三 个 0 和 1 的 所 有 可 能 的 列 ， 都 出 现在 图 2-10 的 矩阵 中 。 

b ) 宛 余 盘 的 列 有 单个 1。 

c) 数 据 盘 的 列 至 少 各 有 两 个 1。 

由 0 和 1 组 成 的 三 行 的 每 一 行 的 含义 是 ， 如 果 我 们 着 眼 于 来 自 全 部 7 个 盘 的 相应 的 位 ， 把 我 
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们 的 注意 力 限 制 在 行 有 1 的 那些 磁盘 上 ， 那 么 这 些 位 的 模 2 和 必须 是 0。 换 一 种 说 法 ， 在 所 给 的 
行内 带 有 1 的 磁盘 ， 可 以 看 作 似乎 它们 是 RAID 4 级 方 
案 中 的 整个 磁盘 组 合 。 这 样 ， 通 过 找 出 该 磁盘 有 1 的 那 
一 行 ， 并 且 取 同一 行 有 1 的 其 他 磁盘 的 相应 位 的 模 2 
和 ， 我 们 就 能 计算 出 元 余 盘 之 一 的 相应 位 。 

对 于 图 2-10 的 矩阵 ， 这 个 规则 意味 着 : 

1. 盘 5 的 位 是 盘 1、2、3 相应 位 的 模 2 和 。 

2. 盘 6 的 位 是 盘 1、2、4 相应 位 的 模 2 和 。 图 2-10 “一 个 能 从 两 个 同时 发 生 的 磁盘 崩 

3. 盘 7 的 位 是 盘 1、3、4 相应 位 的 模 2 和 。 省 中 恢复 的 系统 的 元 余 模 型 

我 们 会 简单 地 看 出 ,在 本 和 矩阵 中 位 的 特定 选择 给 了 
我 们 一 个 简单 的 规则 ， 通 过 该 规则 ， 我 们 能 够 从 两 个 同时 发 生 的 磁盘 月 演 中 恢复 。 

读 

我 们 可 以 从 任何 一 个 数据 盘 中 正常 地 读数 据 。 元 余 盘 可 以 不 予 理 瞩 。 

写 

写 的 想法 类 似 于 在 2.4. 8 节 中 概括 描述 的 写 策 略 ， 但 是 现在 可 能 要 涉及 几 个 宛 余 盘 。 为 了 写 
某 个 数据 盘 的 一 个 块 ， 我 们 要 求 那个 块 的 新 版 与 旧版 的 模 2 和 。 这 些 位 以 模 2 和 的 方式 加 入 到 满 
足 条 件 的 所 有 宛 余 盘 的 相应 块 中 ， 条 件 是 这 些 宛 余 盘 在 该 数据 写 盘 为 1 的 某 一 行 中 同样 为 1。 

例 2. 13 让 我 们 再 一 次 假设 块 只 有 8 位 长 ， 并 且 关 注 在 我 们 的 RAD 6 级 示例 中 用 到 的 7 个 
磁盘 的 第 一 块 。 首 先 ， 假 设 数据 盘 和 宛 余 盘 的 第 一 块 的 内 容 如 图 2-11 SAN. ER, 盘 5 的 块 
是 前 3 个 盘 的 块 的 模 2 和 ， 第 6 行 是 行 1、2、4 的 模 2 和 ， 而 最 后 一 行 是 行 1、3、4 的 模 2 和 。 

假设 我 们 将 盘 2 的 第 一 块 重 写 为 00001111。 如 果 我 们 求 这 个 序列 与 序列 10101010( 这 是 该 块 
的 旧 值 ) 的 模 2 和 ， 我 们 得 到 10100101。 如 果 我 们 查看 图 2-10 中 盘 2 的 列 ， 我 们 会 发 现 ， 在 前 两 
行 中 该 盘 有 1, 但 是 第 三 行 没有 。 由 于 元 余 盘 5 和 6 在 行 1 和 行 2 有 1， 我 们 必须 分 别 对 它们 的 第 
一 块 的 当前 内 容 和 刚刚 算出 的 序列 10100101 执行 求 模 2 和 操作 。 也 就 是 说 ， 我 们 对 这 两 个 块 在 
位 置 1、3、6、8 上 的 值 求 反 。 所 有 磁盘 的 第 一 块 的 结果 内 容 如 图 2-12 所 示 。 请 注意 ， 新 内 容 依 
旧 满 足 图 2-10 所 包含 的 约束 : 图 2-10 矩阵 的 特定 行 有 1 的 那些 相应 块 的 模 2 和 依然 是 全 0。 O 





















11110000 
10101010 


11110000 
2) 00001111 













3) 00111000 
4) 01000001 
5) 11000111 





6) 10111110 
10001001 











7) 10001001 


图 2-11 所 有 磁盘 的 第 一 块 图 2-12 在 写 盘 2 并 改变 宛 余 盘 之 后 所 有 盘 的 第 一 块 
故障 恢复 
现在 ， 让 我 们 看 看 ， 前 面 概述 的 宛 余 方 案 如 何 能 够 用 于 纠正 两 个 同时 发 生 的 磁盘 崩溃 。 设 故 
障 盘 为 和 5。 由 于 图 2-10 矩阵 的 所 有 列 是 不 同 的 ， 我 们 肯定 能 够 把 和 “的 列 不 同 的 某 个 行 r 
找 出 来 。 假 设 在 行 ", a 有 0, 而 6 有 1。 

然后 ， 通 过 取 来 自 除 之 外 所 有 在 行 r 有 1 的 磁盘 的 相应 位 的 模 2 和， 我 们 能 够 计算 出 正确 
的 5。 请 注意: a 不 是 在 这 些 当 中 ， 所 以 它们 没有 任何 一 个 发 生 故障 。 重 新 计算 完 65， 我 们 必须 
用 所 有 其 他 可 用 盘 来 重新 计算 a， 由 于 图 2-10 的 矩阵 的 每 一 列 都 会 在 某 一 行 里 有 一 个 1， 我 们 能 
够 使 用 这 一 行 去 重新 计算 磁盘 a。， 办 法 是 取 在 该 行 带 1 的 那些 其 他 磁盘 的 位 的 模 2 和 。 
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2.14 假设 盘 2 MAS 几乎 在 同一 时 间 发 生 故 障 。 参 考 图 2-10 的 矩阵 ， 我 们 发 现 ， 这 两 
个 盘 的 列 在 行 2 不 同 ,， 盘 2 有 1 而 盘 5 有 0。 这 样 ， 通 过 取 盘 1、4、6( 行 2 带 1 的 其 他 三 个 盘 ) 的 
相应 位 的 模 2 和 ， 我 们 可 以 按 原样 修复 盘 2。 请 注意 ， 这 三 个 盘 没 有 一 个 发 生 故障 。 例 如 ， 根 据 
与 图 2-12 中 第 一 块 有 关 的 情况 可 以 得 出 ， 在 盘 2 AAS 出 现 故 障 后 ， 我 们 最 初 有 图 2-13 中 所 示 
的 可 用 的 数据 。 

如 果 我 们 取 盘 1、4、6 的 块 的 内 容 的 模 2 和 ， 我 们 发 现 ， 盘 2 的 块 为 00001111。 从 图 2-12 可 
以 验证 这 个 块 是 正确 的 。 现 在 的 情况 如 图 2-14 所 示 。 

现在 ,我 们 看 到 ,图 2-10 中 盘 5 的 列 在 第 一 行 有 一 个 1。 因 此 通过 取 盘 1、2、3( 在 第 一 行 
有 1 的 其 他 三 个 盘 ) 的 相对 应 位 的 模 2 和 ,我 们 可 以 重新 计算 盘 5。 对 于 块 1， 这 个 和 是 
11000111。 这 个 计算 的 正确 性 仍 可 通过 图 2-12 确认 。 口 


关于 RAID 6 级 的 附加 短评 

L 选择 根据 块 号 或 柱 面 号 变换 宛 余 盘 方 式 ， 我 们 可 以 将 RAID 5 级 和 6 级 的 思想 结合 起 
来 。 这 样 做 将 避免 写 操作 时 的 瓶颈 ， 在 2.4.9 节 描 述 的 方案 将 在 宛 祭 盘 产 生 瓶 颈 。 

2. 在 2.4,.9 节 描述 的 方案 不 是 只 限于 4 个 数据 盘 。 磁 副 的 数量 可 以 是 2 的 任意 次 方 减 1， 
例如 2 -1。 在 这 些 检 当 中 , ADAARH, MARK -上 -1 NÆRER, HURRBEF 
多 是 按 数据 盐 数 的 对 数 增 长 。 对 于 任何 上 ， 通 过 写 上 个 0 和 1 的 所 有 可 能 的 列 ( 全 0 列 除外 ) ， 
我 们 可 以 构造 出 与 图 2-10 相对 应 的 矩阵 。 带 单个 1 的 列 与 元 余 盘 相对 应 ， 而 带 一 个 以 上 1 的 
列 是 数据 一。 


















































磁盘 A 磁盘 内 容 
1) 11110000 | 
2) 72272722 2) 00001111 
3) 00111000 3) 00111000 
4) 01000001 | 4) 01000001 
5) 222272277 5) 727222722 
6) 10111110 6) 10111110 
7) 10001001 7) 10001001 
图 2-13 盘 2 和 盘 5 发 生 故障 后 的 状况 图 2-14 #2 恢复 之 后 的 状况 
2.4.10 习题 
习题 2. 4. 1 计算 下 列 位 序列 的 奇偶 校 验 位 : 
a)00111011, 
b) 00000000 , 


ce) 10101101, 

习题 2. 4. 2 ”如 果 我 们 在 一 个 串 末 附加 一 个 位 作为 该 串 各 奇数 位 置 的 奇偶 校 验 位 ， 另 一 个 位 作为 该 串 各 偶数 
位 置 的 奇偶 位 ， 我 们 就 有 了 与 一 个 串 关 联 的 两 个 奇偶 位 。 对 于 习题 2. 4. 1 的 每 一 个 串 ， 找 出 按 这 种 方法 计 
算 的 两 个 位 。 

习题 2. 4. 3 ”假设 我 们 使 用 例 2. 8 中 的 镜像 盘 ， 每 年 故障 率 为 5% ， 更 换 一 个 盘 要 花 10 小 时 。 导 致 数据 丢失 
的 磁盘 平均 故障 时 间 是 多 少 ? 

! 习题 2. 4. 4 假设 我 们 使 用 3 个 磁盘 作为 一 个 镜像 组 ， 即 所 有 3 个 盘 保 存 相同 的 数据 。 如 果 一 个 磁盘 每 年 的 

故障 率 是 ,恢复 一 个 磁盘 要 花费 HD, SHELA PHS? 
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习题 2. 4. 5 ”假设 我 们 使 用 RAID 4 级 方案 ， 有 4 个 数据 盘 和 一 个 宛 余 盘 。 与 例 2. 9 一 样 ， 假 设 块 为 单字 节 。 
如 果 数 据 盘 的 相应 块 如 下 ， 给 出 元 余 盘 的 块 。 
a)01010110, 11000000, 00101011 和 10111011, 
b) 11110000, 11111000, 00111100 #1 01000001 , 

! 习题 2. 4. 6 假设 磁盘 茶 一 年 故障 百分率 为 ERTER ADR. 

a) 如 果 我 们 使 用 镜像 盘 ， 作 为 各 的 函数 ， 数 据 丢 失 的 平均 时 间 是 多 少 ? 
b) 如 果 我 们 采用 RAID 4 级 和 5 级 方案 ， 使 用 NN 个 磁盘 ， 数 据 丢 失 的 平均 时 间 是 多 少 ? 

习题 2. 4.7 采用 如 习题 2.4.5 一样 的 RAID 4 RHR, HERES 1 有 故障 。 在 下 列 情况 下 恢复 该 磁盘 
的 块 : 
a) 盘 2 至 盘 4 的 内 容 为 01110110、11000000 和 00101011 ， 同 时 宛 余 盘 保 存 着 11110011, 
b) 盘 2 至 盘 4 的 内 容 为 11110000、11111000 和 00110011 ， 同 时 宛 余 盘 保存 着 10000001, 

习题 2. 4. 8 假设 习题 2.4.5 第 1 个 盘 的 块 被 改变 为 01010101。 其 他 盘 上 相应 的 块 必须 做 什么 样 的 改变 ? 

习题 2. 4. 9 ”如 果 我 们 有 例 2. 13 的 RAID 6 级 方案 ，4 个 数据 盘 的 块 分 别 为 00110100、11100111 、01010101 
和 10000100。 
a) 宛 余 盘 的 相应 块 是 什么 ? 
b) 如 果 第 3 个 盘 的 块 被 重 写 成 01111111， 必 须 采取 哪些 步骤 以 改变 其 他 盘 ? 

习题 2. 4. 10 RAPAT 个 磁盘 的 RAID 6 级 方案 ， 描 述 从 下 列 故 障 中 恢复 所 要 采取 的 步 又， a) 盘 1 ANA 
4; b) 盘 1 和 和 盘 7; c) 2 MAS. 





纠 错 码 与 RAID 6 级 

有 一 个 指导 我 们 选择 如 图 2-10 那样 的 合适 矩阵 的 主要 原理 ， 用 以 决定 宛 余 盘 的 内 容 。 一 
个 长 度 为 n 的 代码 是 一 组 长 度 为 n 的 位 向 量 ( 称 为 码 字 )。 两 个 码 字 之 间 的 海 明 距 离 是 这 两 个 
码 字 取 值 不 同 的 位 置 的 数量 ， 而 一 个 代码 的 最 小 距离 是 任何 两 个 不 同 的 码 字 的 最 小 的 海 明 
距离 。 

如 果 C 是 长 度 为 n 的 任意 代码 ， 我们 可 以 要 求 风 个 磁 极 的 相应 位 有 这 样 一 个 序列 ， 它 是 
代码 C 的 成 员 。 作 为 一 个 很 简单 的 例子 ， 如 果 我 们 正在 使 用 一 个 磁盘 和 它 的 镜像 ， 那 么 n= 
2， 我 们 可 以 使 用 代码 C= 100，11} 。 也 就 是 说 ， 两 个 磁 副 的 相应 位 必须 是 相同 的 。 对 于 另 一 
个 示例 ， 图 2-10 矩阵 定义 了 由 长 度 为 7 的 16 个 位 向 量 组 成 的 代码 ， 前 4 位 有 任意 的 值 ， 剩 余 
的 3 位 由 3 个 元 余 盘 规则 决定 。 

如 果 代 码 的 最 小 距离 是 4d， 那 么 就 要 求 磁 扒 的 相应 位 是 代码 中 的 一 个 向 量 ,磁盘 将 能 承 
受 d-1 个 同时 发 生 磁盘 骨 溃 。 理 由 是 ,假如 我 们 使 一 个 码 字 的 d -1 个 位 置 模糊 不 清 ， 并 生 
假设 填 入 这 些 位 置 有 两 种 不 同 的 方法 ， 形 成 两 个 码 字 ， 那 么 这 两 个 码 字 最 多 在 这 过 -1 个 位 置 
不 相同 。 这 样 ， 代 码 就 不 会 有 最 小 距离 dg。 作为 一 个 示例 ， 图 2-10 的 矩阵 实际 上 定义 了 著名 
的 海 明 码 ， 它 的 最 小 距离 是 3。 这 样 ， 它 能 处 理 两 个 磁 栓 损坏 。 














2.5 组 织 磁盘 上 的 数据 


我 们 现在 将 关心 如 何在 磁盘 上 存储 数据 库 。 用 一 个 记录 来 表示 一 个 数据 元 素 ( 例 如 元 组 或 对 
象 ) ， 在 磁盘 块 中 的 连续 字 节 存放 。 通 常 来 诉 ， 通 过 将 表示 数据 元 素 的 记录 放 在 一 个 或 多 个 磁盘 
块 中 来 表示 诸如 关系 的 数据 集 。 一 个 磁盘 块 中 仅 存 放 一 个 关系 的 元 素 是 一 种 常见 的 组 织 方式 ， 
尽管 也 存在 如 下 组 织 形 式 : 一 个 磁盘 块 保存 数 个 关系 的 元 组 。 在 本 节 中 ， 我 们 将 讨论 记录 与 磁盘 
块 的 基本 组 织 技术 。 


2.5.1 定 长 记录 
最 简单 类 型 的 记录 由 定 长 字段 组 成 ， 元 组 的 每 个 属性 对 应 一 个 字段 。 当 数据 的 开始 地 址 是 4 
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或 8 的 倍数 时 ， 很 多 机 器 都 允许 甚至 要 求 更 有 效率 的 内 存 读 写 。 因 此 ， 通 常会 根据 情况 使 所 有 字 
段 的 起 始 地 址 是 4 或 8 的 倍数 ， 没 有 被 前 面 字 段 使 用 的 空间 就 浪费 了 。 请 注意 ， 虽 然 记 录 被 存放 
在 辅助 存储 器 而 不 是 内 存 中 ， 这 些 记录 的 操作 仍 需 在 内 存 中 进行 。 因 此 ， 安 排 记 录 以 便 它 能 移 人 
内 存 并 被 有 效 访问 是 必要 的 。 

通常 ， 记 录 以 记录 的 首部 (header) 开始 ， 首 部 是 关于 记录 自身 信息 的 一 个 定 长 区 域 。 例 如 ， 
我 们 可 能 要 在 记录 中 保存 如 下 信息 : 

1. 一 个 指向 该 记录 中 存储 数据 的 模式 的 指针 。 例 如 ， 一 个 元 组 的 记录 可 以 指向 该 元 组 所 属 
的 关系 的 模式 ， 此 信息 可 以 帮 有 我 们 找到 记录 的 字段 。 

2. 记录 长 度 。 此 信息 帮助 我 们 在 不 用 查看 模式 的 情况 下 略 过 某 些 记 录 。 

3. 时 间 稚 ， 标 识 记 录 最 后 一 次 被 修改 或 被 读 的 时 间 。 此 信息 在 实现 数据 库 事务 方面 会 有 用 ， 
我 们 将 在 第 7 章 对 其 进行 讨论 。 

4. 指向 记录 的 字段 的 指针 。 此 信息 可 以 代替 模式 信息 ， 当 我 们 在 2.7 节 考 虑 变 长 字段 时 ， 
将 会 看 到 它 的 重要 性 。 

例 2. 15 图 2-15 重复 了 我 们 的 MovieStar 模式 。 我 们 假设 所 有 字段 必须 以 一 个 4 的 倍数 的 字 
节 开 始 。 该 关系 的 元 组 有 一 个 头 部 和 以 下 4 个 字段 : 











1. 第 一 个 字段 是 name。 这 个 字段 需要 30 字 节 。 如 果 假 设 CREATE TABLE MovieStar( 

所 有 字段 都 以 4 的 倍数 开始 ， 则 我 们 为 name 分 配 32 字 节 。 name CHARC30 )PRIMARY KEY, 
2. 下 一 个 属性 是 address。 一 个 VARCHAR 属性 需要 定 长 address VARCHAR(255), 

的 字 节 片段 ， 比 最 大 长 度 多 一 个 字 节 ( 即 字 符 串 的 结束 符 ) 。 gender CHAR(1), 

FA, address 需要 256 字 节 。 i birthdate DATE 
3. 属性 gender 是 一 个 字 节 ， 保 存 字符 M 或 ‘F’ 。 我 们 分 ); 

配 了 4 个 字 节 ， 使 得 下 一 个 字段 的 起 始 地 址 是 4 的 倍数 。 图 2-15 一 个 SQL 表 定 义 


4. 属性 birthday 是 一 个 SQL DATE 值 ， 即 一 个 10 字 节 的 字符 串 。 我 们 将 为 该 字段 分 配 12 + 
节 ， 使 得 磁盘 块 中 后 续 的 记录 能 够 以 4 的 倍数 对 齐 。 

记录 的 首部 包含 : 

a) 一 个 指向 记录 模式 的 指针 。 

b) 记 录 长 度 。 | 

c) 一 个 时 间 截 ， 用 来 标识 记录 的 创建 时 间 。 

我 们 假设 以 上 每 项 4 字 节 长 ， 图 2-16 列 出 了 一 个 MovieStar 元 组 对 应 的 一 个 记录 的 格式 ， 该 
记录 的 长 度 是 316 字 节 。 

指向 模式 的 指针 







gender 








: name : address : birthdate 
0 12 44 300304 316 
— header »- 


图 2-16 关系 MovieStar 的 元 组 的 记录 格式 


2.5.2 定 长 记录 在 块 中 的 放置 
表示 关系 元 组 的 记录 存储 在 磁盘 块 中 ， 当 我 们 需要 存 取 或 修改 记录 时 ， 记 录 ( 与 整个 块 一 
起 ) 就 被 移 进 主 存 。 存 储 记 录 的 块 的 格式 如 图 2-17 所 示 。 
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图 2-17 一 个 典型 的 存储 记录 的 块 


除了 记录 ， 它 有 一 个 可 选 的 块 首 部 ， 存 储 诸如 以 下 各 种 信息 

1. 与 一 个 或 多 个 其 他 块 的 链接 ， 这 些 块 构成 一 个 块 的 网 络 ， 例 如 在 第 3 章 中 所 描述 的 为 一 
个 关系 的 元 组 创建 索引 的 块 。 

2. 关于 这 个 块 在 这 样 一 个 网 络 中 所 扮演 的 角色 的 信息 。 

3. 关于 这 个 块 的 元 组 属于 哪个 关系 的 信息 。 

i REEN HE 

. 指明 块 最 后 一 次 修改 和 /或 存 取 时 间 的 时 间 戳 。 

到 目前 为 上 ， 最 简单 的 情况 是 块 存储 一 个 关系 的 元 组 ， 并 且 元 组 的 记录 有 固定 格式 。 在 这 种 
情况 下 ， 在 块 首部 的 后 面 ， 我 们 把 尽 可 能 多 的 记录 装 人 块 内 ， 而 留 下 剩余 空间 不 用 。 

例 2. 16 ”假设 我 们 要 存储 具有 例 2. 15 所 示 格 式 的 记录 ， 这 些 记 录 长 度 为 316 字 节 。 我 们 还 假 
设 使 用 4096 字 节 的 块 ; 在 这 些 字 节 中 ，12 个 字 节 用 于 块 首部 ， 剩 余 4084 字 节 由 数据 使 用 。 在 这 个 
空间 中 ， 我 们 能 装 和 人 12 条 所 给 316 字 节 格式 的 记录 ， 每 一 块 有 292 字 节 是 被 浪费 的 空间 。 口 


2.5.3 习题 

习题 2. 5. 1 ”假设 一 条 记录 有 如 下 顺序 的 字段 : 一 个 长 度 为 23 的 字符 串 ， 一 个 2 字 节 整数 ， 一 个 SQL 日 期 ， 
一 个 SQL 时 间 ( 无 小 数 点 ) 。 如 果 
a) 字 段 可 在 任何 字 节 处 开始 ， 
b) 字 段 必须 在 8 的 倍数 的 字 节 处 开始 ， 
c) 字 段 必须 在 4 的 倍数 的 字 节 处 开始 ， 
这 条 记录 占用 多 少 个 字 节 ? 

习题 2. 5. 2 假设 字段 同 习 题 2.5.1, 但 是 记录 有 一 个 首部 ， 它 由 两 个 4 字 节 指针 和 一 个 字符 组 成 ， 对 习题 
2.5.1 中 字段 对 齐 的 (a) 至 (c)3 种 情况 ， 计 算 记录 长 度 。 

习题 2. 5. 3 ”对 字段 序列 : 一 个 8 字 节 实数 ， 一 个 长 度 为 25 的 字符 串 ， 单 独 一 个 字 节 ， 一 个 SQL 日 期 , 重 
做 习题 2. 5. 1 。 

习题 2. 5. 4 ”如 果 记 录 包 括 一 条 记录 首部 ， 它 由 一 个 8 字 节 指针 和 10 个 2 字 节 整数 组 成 ， 重 做 习题 2. 5. 3。 


2.6 块 和 记录 地 址 的 表示 


当 在 内 存 中 时 ， 块 地 址 是 其 第 一 个 字 节 的 虚拟 内 存 地 址 ， 且 块 内 记录 的 地 址 是 该 记录 第 一 
个 字 节 的 虚拟 内 存 地 址 。 但 是 在 二 级 存储 器 中 ， 块 不 是 应 用 的 虚拟 内 存 地 址 空间 的 一 部 分 ， 事 实 
上 ， 有 一 个 字 节 序列 描述 块 在 DBMS 可 访问 的 整个 数据 系统 中 的 地 址 : 磁盘 的 设备 ID, HS, 
等 等 。 记 录 可 通过 它 所 在 的 块 和 其 第 一 个 字 节 在 块 内 的 偏 移 量 来 标识 。 

在 这 一 节 中 ， 我 们 将 首先 讨论 地 址 空间 ， 特 别 是 与 常用 的 DBMS "客户 机 -服务 器 ”体系 结构 
有 关 的 地 址 空间 (参见 《数据 库 系 统 基础 教程 ( 原 书 第 3 版 )》9. 2.4 节 )。 然 后 ,我 们 讨论 表示 地 
址 的 可 用 方法 ; 最 后 看 一 下 “指针 混 写 ”， 这 种 方法 使 我 们 能 将 数据 服务 器 空间 中 的 地 址 转换 成 
客户 端 应 用 程序 空间 中 的 地 址 。 


2.6.1 客户 机 一 服务 器 系统 中 的 地 址 

通常 ， 数 据 库 系统 包括 一 个 服务 器 进程 ， 它 为 一 个 或 多 个 客户 端 进程 提供 二 级 存储 器 数据 ， 
客户 端 进程 是 使 用 数据 的 应 用 。 服 务 器 和 客户 端 进程 可 以 在 一 台 机 器 上 ， 或 者 服务 器 和 一 些 客 
户 端 可 分 布 在 许多 机 器 上 。 
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客户 端 应 用 使 用 常规 的 “虚拟 "地 址 空间 ， 通 常 为 32 位 或 者 说 有 大 约 40 亿 不 同 的 地 址 。 操 作 
系统 或 DBMS 决定 地 址 空间 的 哪些 部 分 目前 在 内 存 里 ， 而 硬件 则 将 虚拟 地 址 空间 映射 到 主 存 的 物 
理 地 址 。 我 们 不 进一步 考虑 这 个 虚拟 到 物理 的 转换 问题 ， 而 是 将 客户 端 地 址 空间 看 作 主 存 本 身 。 

服务 器 的 数据 处 于 数据 库 地 址 空间 ， 空 间 中 的 地 址 涉及 块 或 块 内 偏 移 。 在 这 个 地 址 空间 中 
表示 地 址 的 方法 有 : 

1. 物理 地 址 。 物 理 地 址 是 字 节 串 ， 据 此 我 们 可 确定 二 级 存储 系统 内 块 或 记录 的 位 置 。 下 面 
各 项 都 使 用 物理 地 址 的 一 个 或 多 个 字 节 来 指明 : 

a) 存 储 所 连接 的 主机 (如 果 数 据 库存 储 在 不 止 一 台 机 器 上 )。 

b) 块 所 在 的 磁盘 或 其 他 设备 的 标识 符 。 

c) 磁 盘 的 柱 面 号 。 

d) 柱 面 内 磁道 号 。 

e) 磁道 内 块 号 。 

f) (在 一 些 情 况 下 ) 记 录 的 起 始 地 址 在 块 内 的 偏 移 量 。 

2. 逻辑 地 址 。 每 一 个 块 或 记录 有 一 个 “逻辑 地 址 ”， 这 是 具有 某 个 固定 长 度 的 一 个 任意 字 节 
串 。 存 储 在 磁盘 上 一 个 已 知 位 置 的 映射 表 将 逻辑 地 址 与 物理 地 址 联系 起 来 ， 如 图 2-18 所 示 。 

注意 ， 物 理 地 址 很 长 ， 如 果 我 们 要 包含 所 有 列 出 的 元 logical physical 
素 ，8 字 节 是 我 们 能 使 用 的 最 小 长 度 ， 有 些 系 统 使 用 更 多 的 ”逻辑 地 址 
字 节 。 例 如 ， 想 象 一 个 设计 要 用 100 年 的 对 象 数据 库 。 将 来 
数据 库 可 能 会 增长 到 包含 一 百 万 台 机 器 ， 而 每 一 台 机 器 可 能 
会 快 到 每 一 纳 秒 创建 一 个 对 象 ， 这 个 系统 将 创建 大 约 2 个 
对 象 ， 它 最 小 需要 10 个 字 节 来 表示 地 址 。 因 为 我 们 可 能 更 
倾向 于 预 留 一 些 字 节 来 表示 主机 ， 另 一 些 字 节 表示 存储 单元 
等 ， 则 对 如 此 规模 的 系统 ， 一 个 合理 的 地 址 表示 可 能 要 使 用 图 2-18 ”映射 表 将 逻辑 地 址 
到 比 10 大 得 多 的 字 节 数 。 转换 成 物理 地 址 


2.6.2 有 逻辑 地 址 和 结构 地 址 

人 们 可 能 想 知道 使 用 逻辑 地 址 的 目的 是 什么 。 虽 然 物 理 地 址 所 需 的 信息 都 可 在 映射 表 中 
找到 ， 而 且 跟 踪 指向 记录 的 逻辑 指针 需要 参考 映射 表 ， 然 后 才能 找到 物理 地 址 ， 但 是 与 映射 
表 有 关 的 间接 层次 给 我 们 提供 了 相当 大 的 灵活 性 。 例 如 ， 许 多 数据 组 织 方式 要 求 我 们 到 处 移 
动 记录 ,或 者 在 块 内 或 者 从 一 个 块 移 到 另 一 个 块 。 如 果 我 们 使 用 映射 表 ， 则 所 有 指向 这 条 记 
录 的 指针 参考 这 个 映射 表 。 当 我 们 移动 或 删除 记录 时 ， 我 们 必须 做 的 是 改变 表 中 这 条 记录 对 
应 的 表 项 。 

逻辑 地 址 和 物理 地 址 的 多 种 组 合 也 是 可 能 的 ， 得 到 的 是 结构 化 地 址 模式 。 例 如 ， 人 们 可 使 用 
块 的 物理 地 址 (而 不 是 块 内 的 偏 移 量 ) 加 上 被 访问 的 记录 的 键 值 ， 那 么 ， 为 找到 一 个 具有 这 种 结 
构 地 址 的 记录 ， 我 们 可 使 用 物理 地 址 部 分 找到 包含 那 条 记录 的 块 ， 然 后 检查 块 内 记录 以 找到 具 
有 合适 的 键 的 记录 。 

一 个 相似 且 非 常 有 用 的 物理 和 逻辑 地 址 的 组 合 是 在 每 一 个 块 内 存储 一 个 偏 移 量 表 ， 它 保存 
块 内 记录 的 偏 移 量 ， 如 图 2-19 所 示 。 注 意 偏 移 量 表 是 从 块 的 前 端 向 后 增长 ， 而 记录 是 从 块 的 后 
端 开 始 放置 。 当 记录 不 等 长 时 ， 这 种 策略 很 有 用 ， 因 为 那 时 我 们 事先 不 知道 块 能 存储 多 少 记 录 ， 
而 且 我 们 不 必 一 开始 就 给 这 个 表 分 配 固定 大 小 的 块 首 部 。 

现在 ， 记 录 的 地 址 是 块 的 物理 地 址 加 上 该 记录 在 此 块 的 偏 移 量 表 项 中 的 偏 移 量 。 这 种 块 内 
间接 层次 提供 了 逻辑 地 址 的 许多 优点 ， 而 不 需要 一 个 全 局 映射 表 。 


物理 地 址 
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图 2-19 一 个 有 偏 移 量 表 的 块 ， 该 表 说 明 块 内 每 一 条 记录 的 位 置 














我 们 可 以 在 块 内 移动 记录 ， 我 们 所 要 做 的 只 是 改变 记录 在 偏 移 量 表 中 的 表 项 ， 指 向 这 条 
记录 的 指针 仍 能 找到 它 。 

如 果 仿 移 量 表 项 足够 大 ， 能 存储 这 条 记录 的 “转向 地 址 ”( 给 出 它 的 新 位 置 ) ， 我 们 甚至 可 
以 允许 记录 移 到 另 一 个 块 。 

最 后 ， 如 果 记 录 被 删除 ， 我 们 可 选择 在 它 的 偏 移 量 表 项 中 留 下 一 删除 标记 (tombstone ) , 
即 一 个 标示 记录 被 删除 的 特殊 值 。 记 录 删 除 前 ， 指 向 这 条 记录 的 指针 可 能 已 存储 在 数据 
库 中 的 不 同 地 方 。 记 录 删 除 后 ， 沿 指向 这 条 记录 的 指针 找到 删除 标记 ， 然 后 指针 要 么 被 
一 个 空 指针 代替 ， 要 人 么 修改 数据 结构 以 反映 记录 的 删除 。 如 果 我 们 不 留 下 删除 标记 ， 指 
针 可 能 会 指 到 一 些 新 记录 上 ， 产 生意 外 的 错误 结果 。 


2. 6.3 指针 混 写 


指针 或 地 址 经 常 是 记录 的 一 部 分 。 尽 管 表示 关系 元 组 的 记录 不 常 遇 到 这 种 情况 ， 表 示 对 象 
的 元 组 却 常 遇 到 这 种 情况 。 现 代 对 象 关系 数据 库 系 统 也 人 允许 属性 是 指针 类 型 (或 引用 ) ， 因 此 ， 
即使 是 关系 系统 也 要 能 在 元 组 中 表示 指针 。 还 有 -- 点 ， 索 引 结构 由 内 部 有 指针 的 块 组 成 。 所 以 ， 
我 们 必须 研究 块 在 主 存储 器 和 二 级 存储 器 之 间 移动 时 的 指针 管理 。 

如 我 们 前 面 所 述 ， 每 一 个 块 、 记 录 、 对 象 或 其 他 可 引用 的 数据 项 都 有 两 种 地 址 形式 : CER 
务 器 的 数据 库 地 址 空间 中 的 数据 库 地 址 和 内 在 地 址 ， 如 果 该 数据 项 目前 被 拷贝 到 虚拟 内 存 中 ， 
则 使 用 内 存 地 址 。 当 数据 项 在 二 级 存储 器 中 ， 我 们 肯定 要 用 数据 项 的 数据 库 地 址 。 但 是 ， 当 数据 
项 是 在 内 存 中 时 ， 通 过 两 种 地 址 我 们 都 可 以 找到 该 数据 项 。 让 数据 项 的 指针 使 用 内 存 地 址 更 高 
效 一 些 ， 因 为 用 一 条 机 器 指令 就 可 以 跟踪 这 些 指针 。 

相反 ， 跟 踪 数 据 库 地 址 要 费时 得 多 ， 我 们 需要 一 个 表 将 目前 在 虚 存 中 的 所 有 数据 库 地 址 转 
换 成 它们 的 当前 内 存 地 址 。 这 样 的 转换 表 如 图 2-20 所 示 。 它 可 能 看 起 来 像 图 2-18 中 逮 辑 和 物理 
地 址 的 映射 表 。 但 是 ， 

a) 逻辑 和 物理 地 址 都 是 数据 库 地 址 的 表示 ， 而 转换 表 中 
内 存 地 址 用 于 相应 对 象 在 内 存 中 的 拷贝 。 数据 库 

b) 数 据 库 中 所 有 可 访问 的 数据 项 在 映射 表 中 都 有 表 项 ， “地址 
而 转换 表 只 记载 当前 在 内 存 中 的 数据 项 。 

为 避免 将 数据 库 地 址 重复 转换 成 内 存 地 址 的 开销 ， 现 已 提 
出 几 种 技术 ， 统 称 为 指针 混 写 (pointer swizzling) 。 总 的 思想 是 主 存 地 址 
当 我 们 把 块 从 二 级 存储 器 移 到 主 存储 器 中 时 ， 块 内 指针 可 以 
“ 泥 写 ”"， 即 从 数据 库 地 址 空间 转换 为 虚拟 地 址 空间 。 因 此 ， 
一 个 指针 实际 上 包含 ; 图 2-20 转换 表 将 数据 库 地 址 转换 

1. 一 个 二 进 制 位 ， 指 明 指针 目前 是 数据 库 地 址 还 是 ( 混 写 成 内 存 中 的 相应 地 址 
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的 ) 内存 地 址 。 

2. 数据 库 或 内 存 指针 ， 看 哪个 合适 。 无 论 当前 使 用 如 一 种 地 址 形式 ， 所 用 空间 相同 。 当 然 ， 
车 当前 是 内 存 地 址 ， 可 能 不 使 用 整个 空间 ， 因 为 内 存 地 址 通常 比 数据 库 地 址 短 。 

例 2.17 图 221 是 一 种 简单 情况 ， 其 中 块 1 有 一 条 记录 ， 这 条 记录 有 两 个 指针 ， 一 个 指针 
指向 同一 块 中 的 第 二 条 记录 ， 另 一 个 指针 指向 另 一 块 中 的 记录 。 图 中 还 表示 了 当 块 1 被 拷贝 进 内 
存 中 时 ， 可 能 会 发 生 的 事情 。 第 一 个 指针 ， 即 块 1 内 的 指针 ， 可 被 混 写 以 直接 指向 目标 记录 的 内 
存 地 址 。 





磁盘 块 2 
图 2-21 当 使 用 混 写 时 一 个 指针 的 结构 


但 是 如 果 块 2 此 时 不 在 内 存 中 ， 那 么 我 们 不 能 混 写 第 二 个 指针 ; 它 必须 不 被 混 写 ， 指 向 目标 
的 数据 库 地 址 。 假 如 后 来 块 2 被 放 人 内 存 ， 从 理论 上 说 混 写 块 1 的 第 二 个 指针 成 为 可 能 。 根 据 使 
用 的 混 写 策略 不 同 ， 内 存 中 可 能 有 也 可 能 没有 这 样 的 指向 块 2 的 指针 列表 ; 如 果 有 ， 我 们 可 以 选 
择 在 那个 时 候 混 写 指针 。 口 

自动 混 写 

有 几 种 策略 可 用 来 决定 什么 时 机 进行 指针 混 写 。 如 果 我 们 使 用 自动 混 写 automatic swizz- 
ling) ， 则 块 一 旦 被 放 人 和 人 内存， 我 们 为 它 的 所 有 指针 和 地 址 定位 ， 并 且 如 果 这 些 指针 和 地 址 不 在 
转换 表 中 ， 我 们 将 它们 放 人 转换 表 。 这 些 指针 既 包 括 来 自 (I) 块 中 记录 的 指向 其 他 地 方 的 指针 ， 
也 包括 块 自身 和 /或 其 记录 的 地 址 ， 如 果 它 们 是 可 访问 的 数据 项 。 我 们 需要 一 些 为 块 内 指针 定位 
的 机 制 。 例 如 : 

1. 如 果 块 存储 的 记录 具有 一 个 已 知 的 模式 ， 这 个 模式 将 告诉 我 们 在 记录 的 哪个 地 方 可 以 找 
到 指针 。 

2, 如 果 块 被 用 于 我 们 将 在 第 3 章 讨论 的 索引 结构 的 一 种 ， 则 块 在 已 知 位 置 存 储 指针 。 

3. 我 们 可 能 在 块 首部 存放 指针 位 置 的 一 个 列表 。 

当 我 们 将 刚刚 移 人 内存 的 块 和 /或 某 记录 地 址 放 和 人 转换 表 中 时 ， 我 们 知道 块 缓冲 存储 在 内 存 
的 何 处 ， 从 而 我 们 可 直接 创建 这 些 数据 库 地 址 的 转换 表 表 项 。 当 我 们 向 转换 表 添 加 其 中 一 个 数 
据 库 地 址 4 时 ， 可 能 会 发 现 它 已 存在 于 表 中 ， 因 为 对 应 的 块 目 前 正在 内 存 中 。 在 这 种 情况 下 ， 我 
们 用 相应 的 内 存 地 址 代替 刚 移 进 内 存 中 的 块 中 的 4， 并 将 “ 混 写 " 位 设 为 真 。 另 一 方面 ， 如 果 4 还 
不 在 转换 表 中 ， 说 明 它 对 应 的 块 还 未 拷贝 进 内 存 ， 那 么 我 们 不 能 混 写 这 个 指针 ， 只 能 将 它 保 留 为 
数据 库 指针 。 

假设 在 使 用 此 数据 的 过 程 中 ， 我 们 跟踪 指针 已， 而 且 发 现 己 还 未 混 写 ， 即 它 具 有 数据 库 指 针 
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形式 。 我 们 参考 转换 表 ， 看 数据 库 地 址 P 目前 是 否 有 相应 的 内 存 地 址 ， 如 果 没 有 ， 抉 B 必须 被 
拷贝 进 内 存 缓冲 区 。 一 旦 BEAT, 我们 就 可 以 混 写 P， 这 是 通过 用 它 的 内 存 地 址 形式 来 代替 
它 的 数据 库 地 址 形式 已 来 做 到 的 。 

按 需 混 写 

另 一 种 方法 是 当 块 第 一 次 被 移 人 内 存 时 ， 所 有 指针 都 不 混 写 。 我 们 将 它 的 地 址 、 其 中 指针 的 
地 址 与 相应 的 内 存 地 址 一 起 放 人 转换 表 。 如 果 我 们 跟踪 某 个 内 存 块 中 的 指针 P， 我 们 将 它 混 写 ， 
使 用 的 策略 与 我 们 使 用 自动 混 写 策略 时 发 现 一 个 没有 混 写 的 指针 所 使 用 的 策略 相同 。 

按 需 混 写 与 自动 混 写 的 区 别 是 当 块 被 装载 进 内 存 时 ， 后 者 试图 快速 、 有 效 地 混 写 所 有 指针 。 
我 们 必须 在 一 次 混 写 所 有 指针 可 能 节省 的 时 间 与 某 些 混 写 指针 永远 也 用 不 上 的 可 能 性 之 间 进 行 
权衡 。 在 那 种 情况 下 ， 花 费 在 混 写 和 解 混 写 指针 的 时 间 将 被 浪费 。 

一 个 有 趣 的 选择 是 通过 安排 使 数据 库 指 针 看 起 来 像 无 效 的 内 存 指针 。 这 样 ， 我 们 可 以 允许 
计算 机 跟踪 任何 指针 ， 就 像 它 是 内 存 形式 一 样 。 如 果 指 针 凑 巧 没有 被 混 写 ， 那 么 内 存 引 用 必然 产 
生 一 个 硬件 陷阱 。 若 DBMS 提供 一 个 函数 ， 它 由 该 陷阱 触发 ， 并 用 上 面 描述 的 方法 对 指针 混 写 ， 
则 我 们 可 在 单一 指令 中 跟踪 混 写 的 指针 ， 而 只 有 当 指 针 未 被 混 写 时 需 做 一 些 较 费时 的 工作 。 

不 混 写 

当然 永远 不 混 写 指针 也 是 可 能 的 。 我 们 仍然 需要 转换 表 ， 以 使 指针 可 以 以 它们 未 混 写 的 形 
式 被 跟踪 。 这 种 方法 确实 提供 了 记录 不 被 固定 在 内 存 的 好 处 ， 如 2. 6.5 节 所 讨论 的 那样 ， 而 且 不 
需要 决定 当前 使 用 的 是 哪 种 形式 的 指针 。 

混 写 的 程序 控制 

在 一 些 应 用 中 ， 应 用 程序 员 可 能 会 知道 块 中 的 指针 是 否 被 跟踪 。 该 程序 员 可 显 式 地 指明 装 
载 进 内 存 的 块 中 指针 将 被 混 写 ， 也 可 以 只 在 需要 时 请 求 对 指针 进行 混 写 。 例 如 ， 如 果 程 序 员 知 道 
一 个 块 可 能 被 大 量 存 了 到， 如 了 B - 树 (3.2 节 讨论 ) 中 的 根 块 ， 那 么 指针 将 被 混 写 。 但 是 ， 若 被 装载 
进 内 存 中 的 块 只 使 用 一 次 ， 然 后 就 从 内 存 中 删除 ， 则 它 不 被 混 写 。 


2.6.4 块 返回 磁盘 

当 块 被 从 主 存 移 回 到 磁盘 中 时 ， 块 中 的 任何 指针 必须 解除 混 写 ; 即 它们 的 内 存 地 址 必须 由 
相应 的 数据 库 地 址 取代 。 转 换 表 可 用 于 将 两 种 类 型 的 指针 进行 双向 联系 ， 因 此 从 原理 上 说 ， 给 定 
一 个 内 存 地 址 ， 可 以 找到 与 其 对 应 的 数据 库 地 址 。 

但 是 ， 我 们 并 不 想 每 一 次 解除 混 写 时 均 需 搜索 整个 转换 表 。 虽 然 我 们 还 未 讨论 转换 表 的 实 
现 ， 但 是 我 们 可 以 想象 图 2-20 所 示 的 表 有 合适 的 索引 。 如 果 将 转换 表 想 象 为 一 个 关系 ， 则 寻找 
与 数据 库 地 址 x 相 联系 的 内 存 地 址 的 问题 ， 可 表述 为 如 下 的 查询 ; 


SELECT memAddr 

FROM TranslationTable 

WHERE dbAddr = x; 
例如 ， 使 用 数据 库 地 址 作为 键 的 散 列 表 可 能 适用 于 在 dbAddr 属性 上 建立 的 索引 ; 第 3 章 提 出 了 
许多 可 以 采用 的 数据 结构 。 

如 果 我 们 想 支 持 反 向 查询 : 


SELECT dbAddr 

FROM TranslationTable 

WHERE memAddr = y; 
则 我 们 还 需要 在 属性 memAddr 上 建立 索引 。 第 3 章 也 提出 适用 于 这 种 索引 的 数据 结构 。2. 6.5 节 
还 讨论 了 链表 结构 ， 在 某 些 情况 下 ， 它 可 用 于 从 一 个 内 存 地 址 到 达 所 有 指向 它 的 指针 。 
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2.6.5 被 钉 住 的 记录 和 块 

如 果 内 存 中 一 个 块 当 前 不 能 安全 地 被 写 回 磁盘 ， 称 它 为 被 钉 住 的 。 块 首部 可 有 一 个 指明 块 
是 否 被 钉 住 的 二 进 制 位 。 块 可 能 被 钉 住 的 原因 有 很 多 ， 包 括 系统 的 恢复 需要 ， 如 第 6 章 所 讨论 的 
那样 。 指 针 混 写 是 为 什么 某 些 块 必须 被 钉 住 的 一 个 重要 原因 。 

如 果 一 个 块 B, 内 有 一 个 混 写 指针 ， 指 向 块 B, 中 的 某 一 数据 项 ， 那 么 在 将 块 B, 移 回 磁盘 并 
重用 它 的 主 存 缓冲 区 时 ， 我 们 需 非 常 小 心 。 原 因 是 ， 假 如 我 们 跟踪 B 中 的 指针 ， 它 将 把 我 们 指 
引 到 缓冲 区 ， 但 缓冲 区 中 已 不 保存 B,; 其 实 ， 指针 已 成 为 悬挂 指针 。 因 此 一 个 像 B, 那样 被 其 他 
地 方 的 混 写 指针 引用 的 块 是 被 钉 住 的 。 

当 我 们 将 块 写 回 磁盘 时 ， 不 仅 需 要 “ 解 混 写 " 块 中 的 所 有 指针 ， 而 且 需 要 保证 它 没 有 被 钉 住 。 
如 果 它 被 钉 住 ， 我 们 必须 要么 使 它 不 被 钉 住 ， 要 人 么 让 它 继续 留 在 内 存 中 ， 占 用 本 可 用 于 其 他 块 的 
空间 。 为 了 一 个 由 于 存在 外 部 混 写 指针 而 被 钉 住 的 块 不 再 被 钉 住 ， 我 们 必须 “ 解 混 写 ”指向 它 的 
所 有 指针 。 因 此 ， 对 每 一 个 有 数据 项 在 内 存 中 的 数据 库 地址 ， 转 换 表 必须 记录 指向 内 存 中 存在 那 
个 数据 项 的 混 写 指针 的 位 置 。 两 种 可 采用 的 方法 是 : 

1. 将 对 一 个 内 存 地 址 的 一 系列 引用 保存 为 附加 在 该 地 址 在 转换 表 中 的 表 项 上 的 链表 。 

2. 如 果 内 存 地 址 比 数据 库 地 址 短 得 多 ， 我 
们 可 以 在 指针 自身 空间 中 创建 链表 ， 即 每 一 个 
用 于 数据 库 指针 的 空间 被 代替 为 : 

a) 被 混 写 的 指针 。 

b) 另 一 个 指针 ， 它 是 被 混 写 的 指针 所 有 出 
现 所 构成 的 链表 的 一 部 分 。 

图 2-22 表示 了 从 转换 表 中 数据 库 地 址 的 表 


项 x 和 它 相 应 的 内 存 地 址 y 出 发 ， 如 何 将 内 存 
指针 y 的 两 个 出 现 链接 起 来 。 图 2-22 一 个 混 写 指针 所 有 出 现 的 链表 





2.6.6 习题 ， 

习题 2. 6. 1 如 果 我 们 为 Megatron 747 磁盘 表示 物理 地 址 ， 为 每 一 个 柱 面 ， 柱 面 内 每 一 个 磁道 ， 磁 道内 的 每 
一 个 块 各 分 配 一 个 字 节 或 多 个 字 节 ， 我 们 需要 多 少 字 节 ? 对 每 一 个 磁道 内 块 的 最 大 数 做 一 个 合理 的 假设 ; 
回想 一 下 ，Megatron 747 扇面 /磁道 为 一 个 可 变 的 数目 。 

习题 2. 6. 2 为 习题 2. 6. 1 中 描述 的 Megatron 777 磁盘 ， 重 做 习题 2. 6. 1 。 

习题 2. 6. 3 如 果 我 们 希望 既 表 示 块 地 址 ， 又 表示 记录 地 址 ， 则 需要 额外 的 字 节 ， 假 设 我 们 需要 如 习题 
2. 6. 1 所 示 的 一 个 Megatron 747 磁盘 的 地 址 ， 如 果 
a) 将 块 内 字 节 数 作为 物理 地 址 的 一 部 分 ， 
b) 使 用 记录 的 结构 地 址 ,假设 被 存储 的 记录 有 4 字 节 整数 作为 键 ， 
则 我 们 需要 多 少 字 节 表 示 记 录 地 址 ? 

! 习题 2. 6.4 假设 我 们 希望 逻辑 地 表示 Megatron 747 磁盘 上 的 块 地 址 ， 即 使 用 上 字 节 (% 为 某 个 值 ) 的 标识 符 。 
我 们 还 需要 在 磁盘 上 存储 一 个 映射 表 ， 如 图 2-18 所 示 的 那样 ， 它 由 逻辑 地 址 和 物理 地 址 对 组 成 。 用 于 映 
射 表 的 块 不 是 数据 库 的 一 部 分 ， 因 此 在 映射 表 中 没有 这 些 块 的 逻辑 地 址 。 假 设 物理 地 址 使 用 物理 地 址 所 
能 使 用 的 最 少 字 节 数 (如 习题 2. 6. 1 计算 的 那样 ) ， 运 辑 地 址 使 用 逻辑 地 址 所 能 使 用 的 最 小 字 节 数 ， 磁 盘 
的 映射 表 占 用 多 个 4096 字 节 的 块 ? 

习题 2.6.5 WE, IP 地 址 有 4 个 字 节 ， 假设 一 个 全 球 范围 的 地 址 系统 中 块 地 址 由 主机 IP 地 址 ，1 到 10000 
之 间 的 设备 号 以 及 各 个 设备 (假设 为 Megatron 747 磁盘 ) 上 的 块 地 址 组 成 。 块 地 址 需要 多 少 字 节 ? 

习题 2.6.6 在 IPv6 中 ,IP 地 址 将 使 用 16 个 字 节 ， 另 外 ， 我 们 可 能 不 仅 需要 访问 块 ， 还 需要 访问 记录 ， 而 
记录 可 能 在 块 内 任何 字 节 处 开始 。 但 是 ， 设 备 将 有 它们 自己 的 IP 地址， 因此 不 需要 在 主机 内 表示 设备 ， 
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而 如 习题 2. 6. 5 中 我 们 认为 这 是 必要 的 。 假 设 设备 为 Megatron 747 磁盘 ， 在 这 种 情况 下 ， 地 址 的 表示 需要 
多 少 字 节 ? 

习题 2. 6. 7 ”假设 我 们 自动 混 写 所 有 指针 ， 所 用 的 总 时 间 是 单独 混 写 每 一 个 指针 所 用 总 时 间 的 一 半 。 如 果 主 
存 中 一 个 指针 被 至 少 跟 踪 一 次 的 概率 为 p，P 为 何 值 时 自动 混 写 比 按 需 混 写 更 有 效 ? 

! 习题 2. 6. 8 对 习题 2. 6.7 进行 推广 ， 将 从 不 混 写 指针 的 可 能 性 包括 进来 。 假 设 几 个 重要 动作 占用 以 下 时 间 

(以 某 个 时 间 单 位 计 ) ， 

i. 指针 按 需 混 写 : 50。 

ii. 指针 自动 混 写 : 15/ 每 个 指针 。 

ii. 跟踪 一 个 混 写 指针 : 1。 

iy. 跟踪 一 个 未 混 写 指针 : 10。 

假设 内 存 中 指针 要 么 不 被 跟踪 (概率 为 1 -p) ， 要 么 被 跟踪 次 (概率 为 p) ,kk 和 p 为 何 值 时 ， 不 混 写 、 自 
动 混 写 和 按 需 混 写 各 自 能 提供 最 好 的 平均 性 能 ? 

! 习题 2. 6.9 假设 我 们 有 4096 字 节 块 ， 块 中 存储 200 字 节 长 的 记录 。 块 首部 由 一 个 偏 移 量 表 组 成 ， 如 图 2- 
19 所 示 ， 它 使 用 2 字 节 长 指针 指向 块 内 记录 。 通 常 ， 每 天 向 每 块 插 人 两 条 记录 ， 删 除 一 条 记录 。 删 除 记 
录 必 须 使 用 一 个 “删除 标记 ”代替 它 的 指针 ， 因 为 可 能 会 有 悬挂 指针 指向 它 。 更 明确 地 说 ， 假 设 任何 一 天 
删除 记录 总 发 生 在 插入 之 前 。 如 果 刚 开始 时 块 是 空 的 ， 多 少 天 之 后 ， 不 再 有 插入 记录 的 空间 ? 


2.7 变 长 数据 和 记录 


目前 为 止 ， 我 们 一 直 简 单 地 假设 记录 有 固定 模式 ， 且 模式 是 定 长 字段 的 列表 。 但 是 ， 实 际 
E, 我们 可 能 希望 表示 : 

1. 大 小 变化 的 数据 项 。 例 如 ， 在 图 2-15 中 ， 我们 考虑 了 一 个 关系 MovieStar， 它 的 住址 字段 
最 大 可 为 255 字 节 。 虽 然 有 些 住址 可 能 有 那么 长 ， 但 绝 大 多 数 住址 可 能 是 50 个 字 节 甚至 更 少 。 
如 果 我 们 只 为 住址 分 配 它 所 需 的 实际 空间 ， 则 我 们 节省 了 多 于 一 半 的 存储 MovieStar 元 组 的 空间 。 

2. 重复 字段 。 如 果 我 们 尝试 在 一 个 表示 对 象 的 记录 中 表示 多 对 多 的 关系 ， 则 有 多 少 对 象 被 
关联 到 指定 对 象 ， 我 们 就 需要 存储 多 少 相 应 对 象 的 引用 。 

3. 可 变 格 式 记 录 。 有 时 ， 我 们 事先 不 知道 记录 的 字段 是 什么 ， 或 每 一 个 字段 出 现 多 少 次 。 
一 个 重要 的 例子 是 表示 一 个 XML 元 素 的 一 条 记录 ， 该 XML 元 素 没有 任何 约束 ， 或 可 能 被 允许 有 
重复 的 子 元 素 和 可 选 扁 性 等 等 。 

4. 极 大 的 字段 。 现 代 DBMS 支持 属性 值 非常 大 的 属性 。 例 如 ， 一 个 电影 记录 可 能 有 一 个 字 
段 ， 该 字段 是 电影 的 2G 大 小 的 MPEG 编码 ， 还 有 更 多 普通 的 字段 ， 例 如 电影 的 标题 。 


2.7.1 具有 变 长 字段 的 记录 

如 果 记 录 的 一 个 或 多 个 字段 是 变 长 的 ， 则 记录 必须 包含 足够 多 的 信息 以 让 我 们 能 找到 记录 
的 任何 字段 。 一 个 简单 而 有 效 的 模式 是 将 所 有 定 长 字段 放 在 变 长 字段 之 前 ， 然 后 我 们 在 记录 首 
部 写 入 以 下 信息 : 

1. 记录 长 度 。 

2. 指向 所 有 除 第 一 个 之 外 的 变 长 字段 起 始 处 ( 即 偏 移 量 ) 的 指针 (我 们 知道 第 一 个 变 长 字段 
就 紧 跟 在 定 长 字段 之 后 ) 。 

例 2. 18 假设 我 们 有 电影 明星 的 记录 ， 其 字段 为 姓名 、 住 址 、 性 别 和 出 生日 期 。 我 们 将 假 
设 性 别 和 出 生日 期 为 定 长 字段 ,各 占 4 和 12 个 字 节 。 但 是 ， 姓 名 和 住址 将 由 具有 任意 合适 长 度 
的 字符 串 表 示 。 从 图 2-23 可 以 看 到 一 个 典型 的 影星 记录 。 请 注意 ， 无 需 指向 名 字 开 头 的 指针 ， 
这 个 字段 总 是 紧 跟 在 记录 的 定 长 部 分 之 后 。 口 
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gender 







: birthdate : name : address 





图 2-23 一 个 MovieStar 记录 ， 其 name 和 address 作为 变 长 字符 串 实 现 





空 值 的 表示 
元 组 经 常 有 可 为 NULL 的 字段 。 图 2-23 所 示 的 记录 格式 提供 了 一 种 方便 的 表示 NULL 值 
的 方法 。 如 果 像 address 这 样 一 个 字段 为 空 ， 则 我 们 在 指向 的 指针 空间 处 放 一 个 空 指针 。 这 样 
除 住址 指针 外 ， 我 们 不 需要 为 住址 分 配 空间 。 平 均 来 说 这 种 方式 能 节省 空间 ， 甚 至 在 address 
为 定 长 字段 ， 但 它 经 常 有 NULL 值 时 也 如 此 。 











2.7.2 具有 重复 字段 的 记录 

会 出 现 一 种 类 似 的 情况 : 记录 中 定 长 字段 出现 的 次 数 可 变 。 将 字段 的 每 次 出 现 放 在 一 
起 ,在 记录 首部 放 一 个 指针 ， 让 它 指向 字段 出现 的 第 一 个 位 置 ， 这 就 足够 了 。 我 们 可 用 以 下 
方法 找到 字段 下 出 现 的 所 有 位 置 : 令 字段 F 的 一 次 出 现 占 用 的 字 节 数 为 L， 然 后 在 字段 的 偏 移 
量 上 加 上 工 的 所 有 整数 倍数 ， 从 0 开始 而 后 L、2L、3L， 依 此 类 推 。 最 后 ,我 们 到 达 F 后 面 的 字 
盘 的 偏 移 量 或 记录 末尾 ， 至 此 停止 。 

例 2. 19 假设 我 们 重新 设计 电影 明星 记录 ， 只 存储 姓名 和 住址 ( 为 变 长 字符 串 ) 和 指向 明星 
主演 的 所 有 影片 的 指针 。 图 2-24 给 出 了 这 种 记录 类 型 是 如 何 被 表示 的 。 首 部 包含 指向 地 址 字段 
起 始 处 的 指针 (我 们 假设 姓名 字段 总 是 恰好 在 首部 之 后 开始 ) 和 指向 第 一 个 电影 指针 的 指针 。 记 
录 长 度 告诉 我 们 有 多 少 电影 指针 。 口 


指向 address 
| 指向 影片 指针 


: name : 





影片 指针 
图 2-24 具有 对 电影 的 一 组 重复 引用 记录 


另 一 种 表示 方法 是 保持 记录 定 长 ， 而 将 变 长 部 分 (无 论 它 是 变 长 字段 ， 还 是 重复 次 数 不 确 定 
的 字段 ) 放 在 另 一 个 块 上 。 在 记录 本 身 中 我 们 存储 : 

1. 指向 每 一 个 重复 字段 开始 处 的 指针 。 

2. 重复 次 数 或 者 重复 结束 处 。 

图 2-25 表示 例 2. 19 中 的 问题 的 记录 格式 ， 但 其 变 长 字段 names 和 address 以 及 重复 字段 
starredin ( 影片 引用 集 ) 存 储 在 另外 的 一 个 或 多 个 块 上 。 

为 记录 的 变 长 部 分 使 用 间接 既 有 好 处 ， 也 有 缺点 : 
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。 保持 记录 定 长 。 可 以 更 有 效 地 对 记录 进行 搜索 ， 使 块 首部 的 开销 最 少 ， 记 录 能 很 容易 地 
在 块 内 或 块 间 移 动 。 

。 另 一 方面 ， 将 变 长 部 分 存储 在 另 一 个 块 中 增加 了 为 检查 一 条 记录 的 所 有 部 分 而 进行 的 磁 
& IO 数目 。 

记录 首部 信息 

指 癌 name 


name 的 长 度 

指向 address 

address 的 长 度 

指向 影片 引用 信息 
引用 的 个 数 






附加 的 空间 
图 2-25 将 变 长 字段 与 记录 分 开 存储 


一 种 折 中 方案 是 在 记录 的 定 长 部 分 保留 足够 的 空间 ， 以 存储 以 下 信息 : 

1. 重复 字段 次 数 合理 的 出 现 。 

2. 指向 可 以 找到 这 个 重复 字段 其 他 地 方 出 现 的 实例 的 指针 。 

3. 其 他 出 现 的 次 数 。 

如 果 所 需 空间 小 于 预 留 空间 ， 则 一 些 空间 可 能 会 无 用 。 如 果 信 息 不 能 放 人 定 长 部 分 ， 则 指向 
附加 空间 的 指针 将 是 非 空 的 ， 且 我 们 能 通过 跟踪 这 个 指针 找到 重复 字段 另外 的 出 现 。 


2.7.3 可 变 格 式 的 记录 

如 果 记 录 没 有 国定 的 模式 ， 情 况 会 更 复杂 。 例 如 ， 我 们 提 到 过 的 一 个 例子 : 用 记录 来 表示 
XML 元 素 。 再 例如 ， 医 疗 记 录 可 能 包含 关于 检验 的 信息 ， 但 是 有 成 百 上 千 的 可 能 检验 ， 每 个 病 
人 可 能 只 与 它们 中 很 少 的 一 部 分 相关 。 如 果 每 个 检验 的 输出 是 一 个 属性 ， 我 们 可 能 更 希望 每 个 
元 组 对 应 的 记录 只 包含 输出 不 为 空 的 属性 。 

可 变 格 式 记 录 最 简单 的 表示 是 带 标 记 的 字段 序列 ， 每 个 带 标记 的 字段 由 字段 值 以 及 置 于 字 
段 值 之 前 的 关于 这 个 字段 的 角色 的 信息 ， 诸 如 : 

1. 属性 或 字段 名 。 

2. 字段 类 型 ， 如 果 它 不 能 从 字段 名 和 一 些 可 用 的 模式 信息 中 明显 推 知 。 

3. 字段 长 度 ， 如 果 它 不 能 从 类 型 明显 推 知 。 

例 2.20 假设 一 些 电 影 明 星 有 诸如 执导 的 影片 、 前 配偶 、 所 拥有 的 餐馆 和 许多 其 他 的 固定 
但 不 常用 的 信息 。 在 图 2-26 中 ， 我 们 看 到 一 个 使 用 带 标记 的 字段 的 假想 的 电影 明星 记录 的 开头 。 
我 们 假设 各 种 可 能 的 名 称 和 类 型 都 使 用 单字 节 编 码 。 图 中 注 出 了 所 显示 的 两 个 字段 的 长 度 及 其 
合适 的 编码 ， 这 两 个 字段 凑巧 都 是 字符 串 类 型 。 口 
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姓名 的 编码 所 拥有 餐馆 的 编码 
字符 品类 型 的 编码 





N: S: 14: Clint Eastwood Ri s: 16: Hog’s Breath Inn: os 
图 2-26 ”一 个 带 标记 的 字段 的 记录 


2.7.4 不 能 装 入 一 个 块 中 的 记录 

ME, DBMS 经 常用 于 管理 大 值 数 据 类 型 ， 这 是 一 些 通常 不 能 装 和 一 个 块 中 的 值 。 典 型 的 例 
子 是 视频 或 音频 “片段 "。 这 些 大 值 经 常 是 变 长 的 , 但 即使 这 种 类 型 的 属性 值 是 定 长 的 ， 我们 也 
需要 特殊 技术 来 表示 那些 比 磁盘 块 大 的 记录 。 本 节 中 我 们 将 考虑 一 种 称 作 "有 跨 块 记录 ”的 技术 。 
对 非常 大 的 值 ( 兆 字 节 或 十 亿 字 节 ) 的 管理 在 2.7. 5 节 讨 论 。 

当 记录 比 块 小 ， 但 是 将 整 条 记录 装 人 块 中 将 浪费 大 量 空间 时 ， 跨 块 记录 也 是 有 用 的 。 例 如 ， 
例 2.16 F, 空间 仅 浪 费 7% 。 但 如 果 记 录 只 是 比 块 的 一 半 稍 大 ， 则 浪费 率 接近 50% ， 原 因 是 这 
时 我 们 在 一 块 中 只 能 装 一 条 记录 。 

出 现在 一 个 块 中 的 记录 的 一 部 分 被 称 为 记录 片段 。 一 个 具有 两 个 或 多 个 片段 的 记录 被 称 为 
是 跨 块 的 ， 而 不 跨越 块 边界 的 记录 是 不 路 块 的 。 

如 果 记 录 能 跨 块 ， 则 每 一 条 记录 和 记录 片段 需要 一 些 额外 的 首部 信息 ; 

1. 每 一 条 记录 或 片段 首部 必须 包含 一 个 二 进 制 位 ， 指 明 它 是 否 为 一 个 片段 。 

2. 如 果 它 是 一 个 片段 ， 则 它 需 要 几 个 二 进 制 位 ， 指 明 它 是 否 为 它 所 属 的 记录 的 第 一 个 或 最 
后 一 个 片段 。 

3. 如 果 对 同一 条 记录 有 下 一 个 和 /或 前 一 个 片段 ， 则 片段 需要 指向 这 样 一 些 其 他 片段 的 
指针 。 

例 2.21 图 2-27 表示 如 何 将 3 个 大 约 为 块 的 60% 大 小 的 记录 存储 在 2 个 块 中 。 记 录 片 段 2a 
的 首部 包含 一 个 指明 它 是 片段 的 标记 ， 一 个 指明 它 是 记录 的 第 一 个 片段 的 标记 和 一 个 指向 下 一 
个 片段 28 的 指针 。 同 样 ，22 首部 指明 它 是 记录 的 最 后 一 个 片段 ， 且 有 一 个 指向 前 一 个 片段 26 的 
反 向 指针 。 口 





图 2-27 跨 多 个 块 存储 跨 块 记录 


2.7.5 BLOB 

现在 ,我 们 考虑 真正 大 的 记录 值 或 记录 字段 值 的 表示 。 常 见 例子 包括 各 种 格式 的 图 像 ( 如 
GIF 或 JPEG) ， 格 式 为 MPEG 等 的 电影 ， 或 各 种 信号 (声音 、 雷 达 等 ) 。 这 样 的 值 经 常 被 叫做 二 进 
制 大 对 象 或 BLOB(binary large object) 。 当 一 个 字段 的 值 为 BLOB 时 ， 我 们 必须 重新 考虑 至 少 两 件 
事情 。 

BLOB 的 存储 

BLOB 必须 存储 在 一 系列 块 中 ， 我 们 总 是 希望 这 些 块 在 磁盘 的 一 个 或 多 个 柱 面 上 连续 分 配 ， 
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这 样 就 能 有 效 地 检索 BLOB。 但 是 也 有 可 能 将 BLOB 存储 在 块 的 链表 中 。 

另外 ， 可 能 需要 对 BLOB 进行 快速 检索 (如 必须 实时 播放 一 部 电影 ) ， 如 将 其 存储 在 一 个 磁 
盘 上 ， 我 们 则 不 能 对 其 进行 足够 快 的 检索 。 那 么 ， 有 必要 将 BLOB 进行 分 割 ， 存 储 在 几 个 磁盘 
中 ， 即 在 这 些 磁盘 上 交替 存储 BLOB 的 块 。 这 样 就 可 以 同时 检索 BLOB 的 几 个 块 ， 检 索 效 率 提高 
的 倍数 大 约 等 于 参与 分 割 的 磁盘 数 。 

BLOB 的 检索 

我 们 假设 当 客户 端 需 要 记录 时 ,包含 那 条 记录 的 块 全 部 从 数据 库 服务 器 传 到 客户 端 ， 这 一 
假设 可 能 不 再 成 立 。 我 们 可 能 只 想 传送 记录 的 “小 ”字段 ， 同 时 允许 客户 端 一 次 一 个 的 地 请 求 
BLOB 的 块 ， 而 与 记录 的 其 余部 分 无 关 。 例 如 ， 如 果 BLOB 是 一 部 2 小 时 的 电影 且 客户 端 请 求 播 
放 这 部 影片 ， 那 么 可 以 一 次 向 客户 端 传送 电影 的 几 块 ， 其 速率 正好 是 播放 电影 必需 的 速率 。 

在 许多 应 用 中 ， 客 户 端 能 请 求 BLOB 内 部 的 部 分 ， 而 不 必 接 收 整 个 BLOB， 这 也 很 重要 。 例 
如 ， 有 一 个 请 求 要 观看 一 部 电影 的 第 45 分 钟 ， 或 一 个 音频 片段 的 结束 部 分 。 如 果 DBMS 要 支持 
这 些 操作 ， 那 么 它 需 要 合适 的 索引 结构 ， 例 如 ， 在 一 个 电影 BLOB 上 通过 秒 进行 索引 。 


2.7.6 列 存储 

将 元 组 保存 为 记录 的 另 一 个 方法 是 将 每 一 列 保存 为 一 个 记录 。 因 为 关系 的 整个 列 可 能 占据 
远 多 于 一 个 磁盘 块 的 空间 ， 这 些 记 录 可 能 被 分 放 在 多 个 磁盘 块 中 ， 就 如 同 长 文件 一 样 。 如 果 保 持 
每 列 中 值 的 顺序 相同 ， 则 我 们 就 可 以 通过 列 记录 来 重 构 关 系 。 或 者 ， 我 们 可 以 与 值 一 起 保存 元 组 
ID 号 或 整数 值 ， 以 说 明 一 个 值 属于 那个 元 组 。 

例 2. 22 ”考虑 关系 





列 了 表示 为 记录 (a,，c，e)， 列 了 表示 为 记录 (5b5，d，f) 。 如 果 我 们 要 标识 每 个 值 属于 哪个 元 
组 ,我们 可 以 用 记录 ((1，a) ，(2，c) (3, e)) 和 ((1, b), (2, d), 3, NI BARA. Hit 
上 面 的 关系 有 多 少 个 元 组 ， 列 都 能 被 值 的 变 长 的 记录 或 者 重复 的 结构 (该 结构 由 元 组 ID 和 值 组 
成 ) 表 示 。 口 

如 果 我 们 将 关系 按 列 存储 ， 由 于 属性 值 都 是 已 知 的 类 型 ， 通 常 可 能 进行 数据 压缩 。 例 如 ， 关 
系 中 的 一 个 属性 gender 可 能 是 类 型 CHAR(1) ， 但 是 在 基于 元 组 的 记录 中 我 们 将 用 4 个 字 节 存储 ， 
因为 让 元 组 中 的 所 有 成 分 都 以 字 地 址 边界 为 起 始 能 带 来 很 多 方便 。 但 是 ， 如 果 我 们 保存 一 个 gen- 
der 值 序列 ， 就 有 必要 用 一 个 位 序列 存储 该 列 。 如 果 这 样 做 ， 我 们 就 将 数据 压缩 为 原来 的 1/32。 

但 是 ， 为 了 使 按 列 存储 有 意义 ， 必 须 是 如 下 情形 : 大 多 数 查询 请 求 是 针对 所 有 数据 或 者 列 的 
大 部 分 数据 的 。 参 阅 我 们 在 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》10. 6 节 关 于 “分 析 型 "查询 ( 具 
有 所 要 求 特性 的 通用 类 查询 ) 的 讨论 ， 这 些 “OLAP” 请 求 可 能 从 按 列 组 织 数据 中 获 益 。 


2.7.7 习题 

习题 2.7.1 一 个 病人 记录 包含 以 下 定 长 字段 : 病人 的 出 生日 期 ， 社 会 保险 号 码 ， 病 人 卫 ， 每 一 个 字段 都 
是 9 字 节 长 。 它 还 有 下 列 变 长 字段 : 姓名 ， 住 址 和 病史 。 如 果 记 录 内 一 个 指针 需要 8 字 节 ， 记 录 长 度 是 一 
个 2 字 节 整 数 ， 不 包括 变 长 字段 空间 ， 这 条 记录 需要 多 少 字 节 ? 你 可 以 假设 不 需要 对 字段 进行 对 齐 。 

习题 2. 7.2 假设 使 用 习题 2.7.1 的 记录 。 变 长 字段 姓名 、 住 址 和 病史 的 长 度 都 符合 均匀 分 布 。 对 姓名 来 
说 ， 其 范围 为 20 ~60 字 节 ; 对 住址 来 说 ， 其 范围 是 40 ~80 字 节 ; 对 病史 来 说 ， 范 围 是 0 ~ 2000 字 节 。 一 
个 病人 记录 的 平均 长 度 是 多 少 ? 
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习题 2. 7. 3 ”假设 在 习题 2.7. 1 的 病人 记录 上 添加 另外 的 可 重复 字段 ， 表 示 胆 固 醇 化 验 ， 每 一 次 胆固醇 化 验 
需要 一 个 24 字 节 的 日 期 和 化 验 的 整数 结果 。 如 果 
a) 重复 化 验 保存 在 记录 中 。 
b) 化 验 存储 在 另外 一 个 块 中 ， 记 录 中 存储 指向 化 验 的 指针 。 
分 别 给 出 病人 记录 的 格式 。 

习题 2. 7.4 假设 在 习题 2. 7. 1 的 病人 记录 上 ， 我 们 添加 用 于 检验 及 检验 结果 的 字段 。 每 个 检验 包括 检验 
名 、 日 期 和 检验 结果 。 假 设 每 一 个 这 样 的 检验 需要 100 字 节 。 还 假设 对 每 一 个 病人 和 每 一 次 检验 ， 存 储 检 
验 结果 的 概率 为 p。 
a) 假 设 指针 和 整数 都 需要 8 字 节 ， 所 有 检验 结果 都 作为 变 长 字段 存储 在 记录 内 ， 在 病人 记录 中 ， 检 验 结果 

平均 需要 多 少 字 节 ? 

b) 如 果 检 验 结果 字段 存储 在 其 他 地 方 ， 而 记录 内 有 指向 检验 结果 字段 的 指针 表示 检验 结果 ， 重 作 (a) 。 

1c) 假 设 我 们 使 用 混合 模式 ,次 检验 结果 存储 在 记录 内 ， 另 外 的 检验 结果 存储 在 另 一 块 (或 块 链 中 ) 中 ， 这 
些 另外 的 检验 结果 可 通过 跟踪 指向 存储 它们 的 块 (或 块 链 ) 的 指针 而 被 找到 。 作 为 p 的 函数 ， 当 上 为 何 
值 时 ， 用 于 存储 检验 结果 的 空间 最 小 ? 

! d) 重 复 的 检验 结果 字段 所 用 空间 总 量 不 是 唯一 问题 。 假 设 我 们 想 最 小 化 的 一 个 重要 指标 是 所 使 用 的 字 节 
数 。 如 果 我 们 必须 将 一 些 结果 存储 在 另 一 块 中 ， 从 而 对 许多 我 们 必须 进行 的 检验 结果 的 存 取 需 要 一 次 
磁盘 IO， 则 加 上 5000 的 损失 。 在 这 种 假设 下 , 上 大 作为 P 的 函数 ， 其 最 佳 值 是 多 少 ? 

!1 习题 2.7.5 一 部 MPEG 影片 大 约 每 小 时 的 播放 使 用 约 1G 字 节 。 如 果 我 们 仔细 组 织 一 个 Megatron 747 磁盘 
上 的 一 些 影片 ， 我 们 能 从 一 个 磁盘 上 以 很 小 的 延迟 (例如 100ms) 播放 多 少 影片 ? 利用 例 2. 2 中 的 时 间 估 
计 ， 但 请 记 住 你 可 以 选择 怎样 在 磁盘 上 组 织 电 影 的 存储 。 

1 32.7.6 假设 块 有 1000 字 节 可 用 于 存储 记录 ， 我 们 希望 在 块 上 存储 长 度 为 r 的 定 长 记录 ， 其 中 500 < 
r<1000。r 的 值 包括 记录 首部 ， 但 是 一 个 记录 片段 需要 另外 的 32 字 节 用 作 片 段 首部。7 为 何 值 时 ， 我 们 能 
通过 跨 块 记录 提高 空间 使 用 率 ? 


2.8 记录 的 修改 


记录 的 插入 、 删 除 和 更 新 经 常 产 生 特 别 的 问题 。 尽 管 当 记录 改变 长 度 时 ， 这 些 问题 尤为 严 
重 ， 但 即使 记录 和 字段 都 是 定 长 的 ， 也 会 出 现 这 些 问 题 。 


2.8.1 插入 

首先 ， 我 们 考虑 将 一 条 新 记录 揪 人 到 一 个 关系 中 。 如 果 关 系 的 记录 没有 特定 的 存储 顺序 ， 则 我 们 
只 需 找到 一 个 有 一 些 空闲 空间 的 块 ， 或 当 块 没有 空闲 空间 时 就 找 一 个 新 块 ， 然 后 将 记录 放 在 那里 。 

车 元 组 必须 以 某 个 固定 次 序 存储 ， 如 按 主 键 顺序 存储 (例如 ， 见 3.1.1 节 )， 则 会 有 更 多 的 
间 题 。 如 果 我 们 要 插入 一 个 新 记录 ， 首 先 我 们 找到 那 条 记录 应 放置 的 块 。 先 假设 此 块 有 空间 存放 
这 条 新 记录 。 因 为 记录 必须 保持 有 序 ， 我 们 可 能 不 得 不 在 块 中 滑动 记录 以 在 合适 的 地 点 得 到 所 
需 的 空间 。 

如 果 我 们 需要 滑动 记录 ， 则 我 们 在 图 2-19 中 所 示 的 块 组 织 是 很 有 用 的 ， 这 里 我 们 把 它 再 现 
在 图 2-28 中 。 回 想 我 们 在 2. 6. 2 节 中 的 讨论 ， 我 们 可 以 在 每 一 个 块 的 首部 创建 一 个 偏 移 量 表 ”， 
其 中 指针 指向 块 中 每 一 记录 的 位 置 。 从 块 的 外 部 指向 记录 的 指针 是 一 个 “结构 化 地 址 ” ， 即 块 地 
址 和 偏 移 量 表 中 该 记录 表 项 的 位 置 。 

如 果 我 们 能 在 当前 块 中 为 插入 记录 找到 空间 ， 则 我 们 只 是 简单 地 在 块 中 滑动 记录 ， 调 整 偏 
移 量 表 中 的 指针 。 新 记录 被 插入 到 块 中 ， 在 此 块 的 偏 移 量 表 中 添加 指向 此 记录 的 新 指针 。 但 是 ， 
块 中 可 能 没有 空间 用 于 新 记录 的 存储 ， 在 这 种 情况 下， 我 们 不 得 不 在 此 块 之 外 寻找 到 空间 。 解 决 
这 个 问题 主要 有 两 种 方法 ， 这 两 种 方法 也 可 以 结合 使 用 : 
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图 2-28 ” 偏 移 量 表 让 我 们 在 块 中 滑动 记录 以 便 为 新 记录 腾 出 空间 


1. 在 “邻近 块 "中 找 空间 。 例 如 ， 若 块 B, 没有 空间 ， 可 被 以 有 序 方式 插入 该 块 中 的 记录 所 
用 ， 则 在 块 的 有 序 排列 中 找到 下 一 个 块 B,。 如 果 B, 有 空间 ， 将 ,的 最 高 记录 移 到 B,， 留 下 一 
个 转向 地 址 (参阅 2. 6. 2 节 ) ， 并 滑动 两 个 块 中 的 记录 。 

2. 创建 一 个 溢出 块 。 在 这 种 模式 下 ， 每 个 块 B 的 首 
部 有 一 个 位 置 ， 这 个 位 置 存放 一 个 指向 溢出 块 的 指针 ， 理 
论 上 属于 也 的 多 余 的 记录 的 放 入 溢出 块 中 。B 的 溢出 块 可 ep 2 的 溢出 所 
以 指向 第 二 个 溢出 块 ， 依 此 类 推 。 图 2.29 指明 了 这 种 情 a29 次 及 其 第 _ 个 党 出 区 
况 。 我 们 将 溢出 块 的 指针 表示 为 块 上 的 小 块 ， 尽 管 实际 上 
它 是 块 首部 的 一 部 分 。 


2.8.2 删除 

在 删除 记录 时 ， 我 们 可 以 回收 记录 空间 。 如 果 我 们 使 用 图 2-28 所 示 的 偏 移 量 表 ， 且 记录 可 
以 在 块 内 滑动 ， 则 我 们 能 让 块 中 空间 紧凑 ， 以 使 块 中 间 总 有 一 个 未 用 的 区 域 ， 如 该 图 所 示 。 

如 我 们 不 能 滑动 记录 ， 则 我 们 需要 在 块 首部 维护 一 个 可 用 空间 列表 。 当 向 块 中 插入 一 条 新 
记录 时 ， 我 们 知道 可 用 区 域 在 哪里 ， 它 有 多 大 。 注 意 ， 块 首部 通常 不 必 存 储 全 部 可 用 空间 列表 ， 
只 把 链 头 放 于 块 首部 就 足够 了 ， 然 后 使 用 可 用 区 域 自身 存储 列表 中 的 链接 ， 与 图 2-22 很 相似 。 

在 删除 记录 时 ， 还 有 另外 一 个 复杂 的 因素 ， 无 论 我 们 使 用 何 种 模式 重新 组 织 块 ， 我 们 都 必须 
记 住 它 。 如 果 有 指向 被 删除 记录 的 指针 ， 那 么 我 们 不 想 让 这 些 指针 成 为 悬挂 指针 或 指向 放 于 被 
删除 记录 地 址 处 的 新 记录 。 通 常 采用 的 方法 是 在 记录 处 放 一 个 删除 标志 ， 我 们 在 2. 6. 2 节 已 指出 
这 种 方法 。 这 个 删除 标记 是 永久 的 ; 它 必 须 一直 保 留 ， 直 到 对 整个 数据 库 进行 重 构 。 

删除 标记 放 在 何 处 依赖 于 记录 指针 的 特征 。 如 果 指 针 都 指向 固定 的 位 置 ， 在 这 些 固定 位 置 
可 以 找到 记录 的 位 置 ， 则 我 们 可 将 删除 标记 放 在 该 固定 位 置 。 这 里 是 两 个 例子 : 

1. 2.6.2 节 我 们 指出 如 果 使 用 图 2-28 的 偏 移 量 表 模式 ， 则 删除 标记 可 以 是 偏 移 量 表 中 的 空 
指针 ， 因 为 指向 记录 的 指针 实际 上 是 指向 偏 移 量 表 表 项 的 指针 。 

2. 如 果 我 们 使 用 图 2-18 所 示 的 映射 表 将 逻辑 地 址 转换 为 物理 地 址 ， 则 删除 标记 可 以 是 在 物 
理 地 址 处 的 空 指针 。 

如 果 我 们 需要 用 删除 标记 代替 记录 ， 我 们 应 将 表示 删除 标记 的 一 个 二 进 制 位 置 于 记录 的 最 前 面 。 
这 样 ， 只 需 将 该 二 进 制 位 保存 在 记录 原来 的 起 始 处 ， 后 续 的 字 节 可 用 于 另 一 个 记录 ， 如 图 2-30 所 示 。 











图 2-30 记录 1 可 被 替代 ， 但 是 删除 标记 保留 ; 记录 2 没有 删除 标记 ， 可 以 通过 跟踪 指向 它 的 指针 而 看 到 它 
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2.8.3 修改 

当 一 个 定 长 记录 被 修改 时 ， 对 存储 系统 没有 影响 ， 因 为 我 们 知道 它 占用 与 修改 前 完全 相同 
的 空间 。 但 是 当 一 个 变 长 记录 被 修改 时 ， 我 们 就 会 磁 到 与 插入 和 删除 有 关 的 所 有 问题 ， 只 不 过 永 
远 都 不 需要 为 记录 的 旧版 本 创建 删除 标记 。 

如 果 修 改 后 的 记录 比 其 旧版 本 长 ， 则 我 们 可 能 需要 在 它 所 在 的 块 中 创建 更 多 的 空间 。 这 个 
过 程 可 能 涉及 记录 的 滑动 ， 有 时 甚至 要 创建 一 个 溢出 块 。 如 果 记 录 的 变 长 部 分 存储 在 另 一 个 块 
中 ， 如 图 2-25 所 示 ， 则 我 们 可 能 需要 在 那个 块 中 移动 元 素 ， 或 创建 一 个 新 块 用 于 存储 变 长 字段 。 
反 过 来 ， 如 果 记 录 由 于 修改 而 变 短 ， 我 们 可 以 像 删除 记录 时 那样 恢复 、 合 并 空间 。 


2. 8.4 习题 
习题 2. 8. 1 关系 数据 库 系统 总 是 倾向 于 尽 可 能 使 用 定 长 元 组 ， 给 出 这 种 优先 考虑 的 三 种 理由 。 


2.9 小 结 


。 存储 器 层次 : 一 个 计算 机 系统 使 用 多 种 存储 部 件 ， 这 些 存储 部 件 在 速度 、 容 量 和 每 个 二 
进 制 位 的 价格 方面 有 所 不 同 ， 其 范围 涉及 多 个 数量 级 。 从 最 小 /最 贵 到 最 大 /最 便宜 ， 它 
们 分 别 是 : 高 速 缓存 、 主 存储 器 、 辅 助 存储 器 ( 磁盘) 和 第 三 级 存储 器 。 

磁盘 /辅助 存储 器 : 辅助 存储 器 设备 主要 是 拥有 多 个 千 兆 字 节 容 量 的 磁盘 。 磁 盘 设备 有 若 
干 个 磁性 材料 的 圆 盘 ， 圆 盘 上 有 存储 二 进 制 位 的 同心 圆 磁道 。 圆 盘 围 绕 着 中 心 轴 旋转 。 
距离 圆 盘 中 心 的 半径 相同 的 所 有 磁道 形成 一 个 柱 面 。 

块 和 扁 区 : 磁道 被 分 成 鹿 区 ， 扇 区 被 非 磁化 间 辽 所 分 隔 。 扇 区 是 读 盘 和 写 盘 的 基本 单位 。 
块 是 存储 的 逻辑 单位 ， 被 DBMS 这 样 的 应 用 所 使 用 。 块 通常 由 若干 个 扇 区 组 成 。 

磁盘 控制 器 : 磁盘 控制 器 是 控制 一 个 或 多 个 磁盘 装置 的 处 理 器 。 它 负责 将 磁头 移动 到 合 
适 的 柱 面 ， 以 便 读 写 一 个 所 要 求 的 磁道 。 它 还 可 以 调度 对 磁盘 访问 的 竞争 请 求 ， 并 且 组 
冲 要 读 或 要 写 的 块 。 

磁盘 访问 时 间 ; 磁盘 等 待 时 间 是 指 从 发 出 一 个 读 块 或 写 块 请 求 到 该 访问 被 完成 之 间 的 时 
间 。 等 待 时 间 大 体 上 是 由 三 个 因素 所 引起 : 移动 磁头 到 合适 柱 面 的 寻 道 时 间 ; 所 要 求 的 
块 转 到 磁头 下 的 旋转 等 待 时 间 ; 传输 时 间 ， 即 块 在 磁头 下 面 移 动 进行 读 或 写 的 时 间 。 
BAG ee: 对 于 某 些 应 用 来 说 ， 有 多 种 技术 可 以 较 快 地 访问 磁盘 块 。 这 些 技术 包 
括 一 一 将 数据 分 布 到 若干 个 磁盘 当中 (分 割 )， 镜 像 磁 盘 ( 保 存 数据 的 若干 个 拷贝 ， 也 人 允 
许 并 行 访问 ) ， 组 织 数 据 ， 使 这 些 数 据 以 磁道 或 柱 面 为 一 个 整体 的 方式 被 访问 。 

电梯 算法 : 我 们 还 能 通过 访问 请 求 排队 并 按 一 种 顺序 处 理 访问 请 求 来 提高 访问 速度 ， 这 
种 顺序 使 得 磁头 能 够 做 一 次 跨越 整个 磁盘 的 扫描 。 磁 头 每 到 达 一 个 柱 面 (该 柱 面 包含 等 竺 
中 的 访问 请 求 所 需要 的 一 个 或 多 个 块 ) ， 就 停 下 来 处 理 一 个 请 求 。 

磁盘 故障 形式 : 为 了 防止 数据 的 丢失 ， 系 统 必须 能 处 理 错 误 。 磁 盘 故 障 的 基本 类 型 包括 : 
间断 性 故障 (如 果 重 复 多 次 ， 读 或 写 错误 将 不 会 再 发 生 ) ， 永 久 性 故障 (磁盘 上 的 数据 已 
损坏 ,并且 不 能 被 正确 读 出 )， 以 及 磁盘 崩溃 (整个 磁盘 成 为 不 可 读 ) 。 

校 验 和 : 通过 增加 奇偶 校 验 ( 使 得 一 个 位 串 中 1 的 个 数 为 偶数 的 、 外 加 的 二 进 制 位 )。 借 
助 校 验 和 ， 间 断 性 故障 和 永久 性 故障 可 以 被 检测 出 来 ， 尽 管 不 能 被 纠正 。 

稳定 存储 : 通过 制作 所 有 数据 的 两 个 拷贝 ， 并 且 注 意 写 那些 拷贝 的 顺序 ， 单 个 磁盘 可 以 
被 用 于 防止 单个 扇 区 的 几乎 所 有 的 永久 性 故障 。 

RAID: 这 些 模式 允许 数据 在 磁盘 损坏 后 存活 下 来 。4 级 加 一 个 磁盘 ， 其 内 容 是 所 有 其 他 
磁盘 的 相应 位 上 的 奇偶 校 验 ; 5 级 用 不 同 的 磁盘 保存 奇偶 位 ， 以 避免 单个 奇偶 盘 成 为 写 
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记录 : 记录 由 几 个 字段 再 加 上 一 个 记录 首部 组 成 。 首 部 包括 有 关 记 录 的 信息 ， 可 能 包括 
像 时 间 惟 、 模 式 信息 和 记录 长 度 这 样 的 信息 。 如 果 记 录 含 有 变 长 字段 ， 记 录 首 部 可 以 帮 
助 定位 那些 字段 。 

k: 记录 通常 存储 在 块 内 。 块 首部 是 有 关 块 的 信息 ， 占 用 块 中 的 一 些 空 间 ， 其 余 空 间 由 
一 条 或 多 条 记录 占用 。 为 了 支持 记录 的 揪 人 人、 删除 和 更 新 ， 我 们 可 将 偏 移 地 址 表 放 在 磁 
盘 抉 的 头 部 ， 该 偏 移 地 址 表 有 指向 磁盘 块 中 每 个 记录 的 指针 。 

跨 块 记录 : 通常 ,一 条 记录 存储 在 一 个 块 中 。 但 是 ， 如 果 记 录 比 块 大 ,或 我 们 希望 利用 
块 的 剩余 空间 ， 则 我 们 可 将 记录 分 成 两 个 或 多 个 片段 ， 不同 片 段 存 储 在 不 同 块 上 。 这 时 
就 需要 用 片段 首部 将 一 条 记录 的 片段 链接 起 来 。 

BLOB: 非常 大 的 值 (如 图 像 和 视频 ) 被 称 作 BLOB( 二 进 制 大 对 象 ) 。 这 些 值 必 须 跨 许多 块 
存储 ， 而 且 可 能 需要 特殊 的 存储 技术 ， 例 如 保存 在 柱 面 上 或 者 进行 BLOB 的 块 分 割 。 
数据 库 地 址 : 由 DBMS 管理 的 数据 存在 于 几 个 存储 设备 上 ， 通 常 为 磁盘 上 。 为 在 存储 系 
统 中 定位 块 和 记录 ， 我们 可 使 用 物理 地 址 ， 它 描述 设备 号 、 柱 面 、 磁 道 和 肩 区 ， 还 可 能 
包括 扇 区 内 字 节 。 我 们 也 可 使 用 钦 辑 地 址 ， 它 是 任意 字符 串 ， 由 映射 表 转 换 成 物理 地 址 。 
指针 混 写 : 当 磁 盘 块 被 放 入 主 存 时 ， 如 果 指 针 要 被 跟踪 ， 则 数据 库 地 址 需要 转换 成 内 存 
地 址 。 这 种 转换 被 称 为 混 写 ， 且 可 在 块 被 放 人 内 存 时 ， 自 动 进 行 ， 或 当 指 针 第 一 次 被 跟 
踪 时 按 需 混 写 。 

删除 标记 : 当 一 条 记录 被 删除 时 ， 可 能 会 使 指向 它 的 指针 成 为 悬挂 指针 。 和 替代 (部 分 ) 被 
删除 记录 的 删除 标记 警告 系统 记录 已 不 在 那里 。 

被 钉 住 的 决 : 因为 各 种 原因 ， 例 如 块 可 能 包含 被 混 写 的 指针 ， 把 一 个 块 从 内 存 拷贝 回 它 
所 在 磁盘 的 位 置 中 也 许 是 不 能 被 接受 的 。 这 样 的 块 称 为 被 钉 住 的 块 。 如 果 块 被 钉 住 是 由 
于 混 写 指针 ， 则 在 将 块 返回 磁盘 之 前 ， 必 须 为 这 些 指针 解除 混 写 。 
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第 3 章 索引 结构 


仅仅 把 表示 关系 元 组 的 记录 随机 分 散 到 各 存储 块 中 是 不 够 的 。 为 了 说 明 这 点 ， 让 我 们 考虑 
怎样 回答 像 SELECT + FROM R 这 样 简单 的 查询 。 我 们 不 得 不 检索 存储 器 中 每 个 存储 块 才能 找到 
及 中 的 元 组 ， 一 个 更 好 的 做 法 是 为 丸 预 留 一 些 数据 块 ， 甚 至 几 个 完整 的 柱 面 。 这 样 至 少 我 们 可 以 
不 需要 扫描 整个 数据 存储 就 可 以 找到 R 中 的 


所 有 元 组 。 
然而 ， 这 种 组 织 方 式 对 于 回答 下 面 这 个 

简单 查询 还 是 无 所 神 益 ， 例 如 : 存放 
SELECT * FROM R WHERE a=10; 什 索引 on TEAC AIC a 
《数据 库 系 统 基 础 教程 ( 原 书 第 3 版 )》8. 4 

节 为 我 们 介绍 了 创建 索引 的 重要 性 ， 它 能 够 

加 速 在 一 个 或 多 个 属性 上 对 特定 值 的 查询 。 

如 图 3-! 所 示 ， 索 引 是 这 样 一 种 数据 结构 : 它 图 3-1 索引 以 某 个 (或 某 些 ) 字 段 值 为 
以 一 个 或 多 个 字段 的 值 为 输入 并 能 “快速 地 ” 输入 并 找 出 对 应 字段 值 符合 
找 出 具有 该 值 的 记录 。 具 体 来 说 ， 索 引 使 我 要 求 的 记录 


们 只 需 查看 所 有 可 能 记录 中 的 一 小 部 分 就 能 
找到 所 需 记 录 。 建 立 索引 的 字段 (组 合 ) 称 为 查找 键 ， 在 索引 不 言 而 喻 时 也 可 称 “ 键 " 。 


几 种 不 同 的 键 
术语 “ 键 " 有 许多 含义 ， 在 《数据 库 系 统 基础 教程 ( 原 书 第 3 版 )》2.3.6 节 中 我 们 用 它 来 表 
示 关 系 的 主键 。 我 们 还 将 介绍 “排序 键 ”"， 文件 的 记录 据 此 排序 。 我 们 刚刚 介绍 了 “查找 键 ”， 
我 们 已 知 在 该 属性 (组 ) 上 的 值 ， 需 要 通过 索引 查找 具有 相应 值 的 元 组 。 当 “ 键 " 的 含义 不 清 
时 ,我们 尽量 使 用 恰当 的 修饰 词 (“ 主 ” “排序 ”或 “查找 ”)。 不 过 请 注意 ,在 很 多 情况 下 这 
三 种 键 是 同一 含义 。 


在 本 章 中 ， 我 们 将 介绍 在 数据 库 系 统 中 最 常用 的 索引 结构 : B - 树 。 同 时 我 们 还 会 讨论 另 一 
种 重要 的 索引 结构 ， 即 在 辅助 存储 上 的 散 列 表 索 引 。 最 后 ， 我 们 考虑 适用 于 多 媒体 数据 的 索引 。 
这 些 索引 结构 都 支持 在 一 个 或 多 个 属性 上 的 值 查询 或 范围 查询 。 


3.1 索引 结构 基础 


本 节 我 们 将 介绍 几 个 适用 于 所 有 索引 结构 的 概念 。 存 储 结构 由 文件 构成 ， 这 个 文件 的 概念 
和 操作 系统 所 用 的 概念 类 似 。 举 例 来 说 ， 一 个 数据 文件 可 以 用 来 存储 一 个 关系 。 一 个 数据 文件 可 
能 拥有 一 个 或 多 个 索引 文件 ， 每 个 索引 文件 建立 查找 键 和 数据 记录 之 间 的 关联 ， 查 找 键 的 指针 
指向 与 查找 键 具 有 相同 属性 值 的 记录 。 

索引 可 以 是 “稠密 的 ” ， 即 数据 文件 中 每 个 记录 在 索引 文件 中 都 设 有 一 个 索引 项 ;索引 也 可 
以 是 “稀疏 的 " ， 即 数据 文件 中 只 有 一 些 记录 在 索引 文件 中 表示 出 来 ， 通 常 为 每 个 数据 块 在 索引 
文件 中 设 一 个 索引 项 。 索 引 还 可 以 是 主 索引 ”或 者 “辅助 索引 ”。 主 索引 能 确定 记录 在 数据 文件 
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中 的 位 置 ， 而 辅助 索引 不 能 。 比 如 说 ， 通 常 我 们 会 在 关系 的 主键 上 建立 主 索引 ， 而 在 其 他 的 属性 
上 建立 辅助 索引 。 

在 本 节 最 后 ， 我 们 将 研究 文本 中 的 信息 检索 。 本 节 前 面 介绍 的 一 些 内 容 为 我 们 要 介绍 的 “ 倒 
排 索引 ”(inverted index) 做 了 铺垫 。 给 定 一 个 或 多 个 关键 词 ， 通 过 个 排 索引 ， 能 够 有 效 地 从 文本 
中 提取 信息 。 这 种 倒 排 索引 的 技术 有 很 多 应 用 ， 比 如 回答 因特网 中 的 搜索 查询 。 


3.1.1 顺序 文件 

顺序 文件 是 对 关系 中 的 元 组 按 主键 进行 排序 而 生成 的 文件 。 关 系 中 的 元 组 按照 这 个 次 序 分 
布 在 多 个 数据 块 中 。 

例 3.1 图 3-2 中 的 右 半 部 分 显示 了 一 个 顺序 文件 。 这 里 假定 主键 是 整数 ， 我 们 只 列 出 了 主 
键 字 段 。 同 时 ， 我 们 还 做 了 一 个 不 代表 典型 情况 的 假定 ， 即 每 个 存储 抉 中 只 可 存放 两 条 记录 。 例 
如 ， 文 件 的 第 一 个 块 中 存放 键 值 为 10 和 20 的 两 条 记录 。 在 这 里 和 其 他 一 些 例 子 中 ， 我 们 使 用 10 
的 连续 倍数 来 作为 键 值 ， 虽 然 实际 中 不 会 要 求 键 值 形成 这 样 的 算术 顺序 。 口 

虽然 例 3. 1 中 数据 记录 都 是 以 尽量 紧凑 的 方式 存 人 数据 块 中 ， 但 是 一 般 情 况 下 ， 我 们 会 为 每 
个 数据 块 预 留 一 些 空 间 ， 以 容纳 之 后 可 能 揪 和 人 关系 中 的 新 元 组 。 还 有 一 种 方法 是 将 新 播 人 的 元 
组 存储 在 溢出 块 中 ， 正 如 我 们 在 2. 8. 1 节 中 介绍 的 那样 。 


3.1.2 MERSI 

如 果 记 录 是 排 好 序 的 ， 我 们 就 可 以 在 记录 上 建立 稠密 索引 ， 它 是 这 样 一 系列 存储 块 : 块 中 只 
存放 记录 的 键 以 及 指向 记录 本 身 的 指针 ， 指 针 就 是 如 2. 6 节 讨论 的 那样 的 地 址 。 笛 密 索 引文 件 中 
的 索引 块 保持 键 的 顺序 与 文件 中 的 排序 顺序 一 致 。 既 然 我 们 假定 查找 键 和 指针 所 占 存 储 空间 远 
小 于 记录 本 身 ， 我 们 就 可 以 认为 存储 索引 文件 比 存储 数据 文件 所 需 存储 块 要 少 得 多 。 当 内 存 容 
纳 不 下 数据 文件 ， 但 能 容纳 下 索引 文件 时 ， 索 引 的 优势 尤为 明显 。 这 时 ， 通 过 使 用 索引 文件 ， 我 
们 每 次 查询 只 用 一 次 VO 操作 就 能 找到 给 定 键 值 的 记录 。 

例 3.2 图 3-2 所 示 为 一 个 建立 在 顺序 文件 上 的 稠密 索引 。 





























索引 文件 数据 文件 
图 3-2 ”顺序 文件 (在 ) 上 的 稠密 索引 ( 左 ) 


第 一 个 索引 块 存放 指向 前 四 个 记录 的 指针 ， 第 二 个 索引 块 存放 指向 接 下 来 的 四 个 记录 的 指 
针 ， 依 此 类 推 。 口 
稠密 索引 支持 按 给 定 键 值 查找 相应 记录 的 查询 。 给 定 一 个 键 值 开 ， 我 们 先 在 索引 块 中 查找 
天 。 当 找到 天 后 ， 我 们 按照 到 所 对 应 的 指针 到 数据 文件 中 找到 相应 的 记录 。 似 乎 在 找到 天 之 前 我 
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们 需要 检索 索引 文件 的 每 个 存储 块 ， 或 平均 一 半 的 存储 块 。 然 而 ， 由 于 有 下 面 几 个 因素 ， 基 于 索 
引 的 查找 比 它 看 起 来 更 为 有 效 : 

1. 索引 块 数量 通常 比 数据 块 数量 少 。 

2. 由 于 键 被 排序 ， 我 们 可 以 使 用 二 分 查找 法 来 查找 K。 若 有 】 个 索引 块 ， 我 们 只 需 查 找 


login TER, 

3. 索引 文件 可 能 足够 小 ， 以 至 可 以 永久 地 存放 在 主 存 缓冲 区 中 。 要 是 这 样 的 话 ， 查 找 键 天 
时 就 只 涉及 主 存 访问 而 不 需 执行 VO 操作 。 口 
3.1.3 RRS 


稀疏 索引 只 为 数据 文件 的 每 个 存储 块 设 一 个 键 - 指针 对 ， 它 比 稠密 索引 节省 了 更 多 的 存储 
空间 ， 但 查找 给 定 值 的 记录 需 更 多 的 时 间 。 只 有 当 数 据 文件 是 按照 某 个 查找 键 排序 时 ， 在 该 查找 
键 上 建立 的 稀疏 索引 才能 被 使 用 ， 而 稠密 索引 则 可 以 应 用 在 任何 的 查找 键 。 如 图 3-3 Ba, BB 
索引 只 为 每 个 存储 块 设 一 个 键 - 指针 对 。 键 值 是 每 个 数据 块 中 第 一 个 记录 的 对 应 值 。 

例 3.3 同 例 3. 2 一样， 我 们 假定 数据 文件 已 排序 ， 且 其 键 值 为 连续 的 10 的 倍数 ， 直 至 某 
个 较 大 的 数 。 我 们 还 继续 假定 每 个 存储 块 可 存放 四 个 键 - 指针 对 。 这 样 ， 第 一 个 索引 存储 块 中 为 
前 四 个 数据 存储 块 的 第 一 个 键 值 的 索引 项 ， 它 们 分 别 是 10、30、50 和 70。 按 照 前 面 假定 的 键 值 
模式 ， 第 二 个 索引 存储 块 中 为 第 五 至 第 八 个 数据 存储 块 的 第 一 个 键 值 的 索引 项 ， 它 们 分 别 是 90、 
110、130 和 150。 图 中 我 们 还 列 出 第 三 个 索引 存储 块 存放 的 键 值 ， 它 们 分 别 是 假设 的 第 九 至 第 十 
二 个 数据 存储 块 的 第 一 个 键 值 。 

在 已 有 稀 玖 索引 的 情况 下 ， 要 找 出 查找 键 值 为 XK 的 记 
录 ， 我 们 得 在 索引 中 查找 到 键 值 小 于 或 等 于 K 的 最 大 键 
值 。 由 于 索引 文件 已 按键 排序 ， 我 们 可 以 使 用 二 分 查找 法 
来 定位 这 个 索引 项 ， 然 后 根据 它 的 指针 找到 相应 的 数据 
块 。 现 在 我 们 必须 搜索 这 个 数据 块 以 找到 键 值 为 K 的 记 
Ro BR, 数据 块 中 必须 有 足够 的 格式 化 信息 来 标明 其 中 
的 记录 及 记录 内 容 ， 可 以 采用 2.5 节 和 2.7 节 中 的 任何 
技术 。 


3.1.4 多 级 索引 

索引 文件 可 能 占据 多 个 存储 块 ， 即 便 我 们 能 定位 索引 
存储 块 ， 并 且 能 使 用 二 分 查找 法 找到 所 需 索引 项 ， 我 们 仍 可 
能 需要 执行 多 次 VO 操作 才能 得 到 我 们 所 需 的 记录 。 通 过 在 图 3.3 MEA ERREI 
索引 上 再 建 索引 ， 我 们 能 够 使 第 一 级 索引 的 使 用 更 为 有 效 。 

图 3-4 对 图 3-3 进行 了 扩展 ， 它 是 在 图 3-3 的 基础 上 增加 二 级 索引 层 ( 和 前 面 一 样 ， 我 们 假设 
使 用 10 的 连续 倍数 这 一 不 常见 的 模式 ) 。 按 照 同样 想法 ， 我 们 可 以 在 二 级 索引 的 基础 上 建立 三 级 
索引 ， 等 等 。 然 而 ， 这 种 做 法 有 它 的 局 限 ， 与 其 建立 多 级 索引 ， 我 们 宁愿 考虑 使 用 在 3. 2 节 讲述 
的 B- 树 。 

在 这 个 例子 中 ， 一 级 索引 是 稀 梳 的 ， 虽 然 我 们 也 可 以 选择 稠密 索引 来 作为 一 级 索引 。 但 是 ， 
二 级 和 更 高 级 的 索引 必须 是 稀 芍 的 ， 原 因 在 于 一 个 索引 上 的 稠密 索引 将 需要 和 其 前 一 级 索引 同 
样 多 的 键 - 指针 对 ， 因 而 也 就 需要 同样 的 存储 空间 。 


3.1.5 辅助 索引 
辅助 索引 可 用 于 任何 索引 目的 : 这 种 数据 结构 有 助 于 查找 给 定 一 个 或 多 个 字段 值 的 记录 。 
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但 是 ， 辅 助 索引 与 主 索 引 最 大 的 差别 在 于 辅助 索引 不 决定 数据 文件 中 记录 的 存放 位 置 。 而 仅 能 
告诉 我 们 记录 的 当前 存放 位 置 ， 这 一 位 置 可 能 是 由 建立 在 其 他 某 个 字段 上 的 主 索引 确定 的 。 畏 


助 索引 和 主 索引 这 一 差别 有 一 个 有 趣 的 推论 : 


。 辅助 索引 总 是 稠密 索引 。 谈 论 一 个 稀 玻 的 辅助 索引 是 毫 无 意义 的 。 因 为 辅助 索引 不 影响 记 
录 的 存储 位 置 ， 我 们 也 就 不 能 根据 它 来 预测 键 值 不 在 索引 中 显 式 指 明 的 任何 记录 的 位 置 。 
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图 3-4 增加 一 个 二 级 稀 玖 索引 


例 3.4 图 3-5 所 示 为 一 个 典型 的 辅助 索引 。 与 我 们 前 面 图 示 的 准则 一 样 : 数据 文件 中 每 个 
块 存放 二 个 记录 。 记 录 只 显示 了 各 自 的 查找 键 ; 其 值 为 整 型 ,而 且 像 前 面 一 样 我 们 给 它们 取 值 为 
10 的 倍数 。 要 注意 ， 与 图 3-2 中 的 数据 文件 不 同 ， 这 里 的 数据 没有 按 查 找 键 排序 。 





然而 ， 索 引文 件 中 的 键 是 排序 的 。 这 样 就 造成 索引 块 
中 的 指针 并 不 是 指向 一 个 或 少数 几 个 连续 存储 块 ， 而 是 指 
向 许多 不 同 的 数据 块 。 例 如 ， 为 了 检索 键 值 为 20 的 所 有 
记录 ， 我 们 不 仅 要 查找 两 个 索引 块 ， 而 且 还 得 访问 指针 指 
向 的 三 个 不 同 的 数据 块 。 因此， 查找 同样 数量 的 记录 ,使 
用 辅助 索引 比 使 用 主 索引 可 能 需要 多 得 多 的 磁盘 IO。 但 
是 这 个 问题 是 无 法 解决 的 ， 我 们 无 法 控制 数据 块 中 的 元 组 
顺序 ， 因 为 这 些 元 组 可 能 已 按 其 他 属性 排序 。 口 


3. 1.6 辅助 索引 的 运用 

除了 能 在 被 组 织 成 顺序 文件 的 关系 上 建立 附加 索引 
外 ， 辅 助 索 引 甚 至 还 用 作 某 些 数据 结构 的 主键 索引 。 这 些 
结构 之 一 就 是 “ 堆 ”(heap ) 结构 ， 在 这 种 结构 中 ， 关 系 的 
记录 之 间 没 有 特定 的 顺序 。 















































图 3-5 辅助 索引 


第 二 种 需要 辅助 索引 的 常见 数据 结构 是 聚集 文件 。 假 设 有 关系 R 和 $5，R 中 的 元 组 和 5 中 的 
元 组 具有 多 对 一 的 对 应 关系 。 一 种 组 织 结构 是 把 关系 R 的 每 个 元 组 和 关系 5 中 相关 的 元 组 存储 
在 一 起 ， 另 一 种 结构 是 按照 主键 来 存储 关系 R。 前 一 种 结构 在 某 些 情况 下 更 加 合理 。 下 面 的 一 个 


例子 说 明了 这 种 组 织 结构 在 特定 情况 下 的 合理 性 。 
例 3.5 考虑 movie 和 studio 两 个 标准 的 关系 : 


Movie(title, year, length, genre, studioName, producerC#) 


Studio(name, address, presC#) 
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进一步 假定 查询 的 常见 形式 如 下 : 


SELECT title, year 

FROM Movie, Studio 

WHERE presC# = zzz AND Movie.studioName = Studio.name; 
这 里 ，zzz 可 以 表示 任意 制 片 三 经 理 的 证 件 号 ， 也 就 是 说 ， 已 知 一 个 制 片 三 的 经 理 ， 我 们 需要 找 
到 由 该 制 片 三 制作 的 所 有 电影 。 

要 是 我 们 确信 上 面 这 类 查询 是 典型 的 查询 ， 那 么 我 们 就 可 不 按 主键 title 和 year 排序 ， 而 是 
为 Studio 和 Movie 两 个 关系 建立 一 个 聚集 文件 结构 ， 如 图 3-6 所 示 。 我 们 在 每 个 Studio 的 元 组 后 
面 存放 关系 Movie 中 该 制 片 厂 的 所 有 电影 元 组 。 








一 ~ 


studio 1 studio 2 studio 3 studio 4 
制作 的 影片 制作 的 影片 制作 的 影片 ”制作 的 影片 
图 3-6 将 制 片 三 及 其 制作 的 影片 聚集 在 一 起 的 聚集 文件 

如 果 我 们 为 关系 Studio 在 查找 键 presC# 上 建立 索引 ， 那 么 不 管 zz 是 什么 , 我们 都 可 以 快速 
地 找到 所 有 符合 条 件 的 制 片 厂 的 元 组 。 并 且 ，Movie 中 所 有 studioName 属性 和 某 个 制 片 厂 的 name 
属性 匹配 的 元 组 ， 都 会 在 聚集 文件 中 紧 跟 在 该 制 片 厂 的 元 组 后 出 现 。 这 样 的 话 ， 我 们 可 以 用 尽量 
少 的 几 次 VO 就 找到 该 制 片 三 的 所 有 电影 ， 因 为 要 查找 的 Movie 元 组 已 经 以 尽 可 能 稠密 的 方式 存 
储 在 紧 跟 着 的 数据 块 里 。 尽 管 如 此 ， 在 Movie 上 对 任意 属性 建立 的 索引 只 能 是 辅助 索引 。 口 


3.1.7 辅助 索引 中 的 间接 
图 3-5 所 示 结 构 存 在 空间 浪费 ， 有 时 浪费 很 大 。 假 如 某 个 索引 键 值 在 数据 文件 中 出 现 n 次， 
那么 这 个 键 值 在 索引 文件 中 就 要 写 n 次 ， 如 果 我 们 只 为 指向 该 键 值 的 所 有 指针 存储 一 次 键 值 ， 这 
样 会 比较 好 。 
避免 键 值 重复 的 一 种 简便 方法 是 使 用 一 个 称 为 桶 的 间接 层 ， 它 介 于 辅助 索引 文件 和 数据 文件 之 
间 。 如 图 3-7 所 示 ， 每 个 查找 键 K 有 一 个 键 -指针 对 ， 指针 指向 一 个 桶 文件 ， 该 文件 中 存放 天 的 
桶 。 从 这 个 位 置 开始 ， 直 到 索引 指向 的 下 一 个 位 置 ， 其 间 指 针 指 向 索引 键 值 为 XK 的 所 有 记录 。 
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索引 文件 桶 数据 文件 
图 3-7 通过 在 辅助 索引 中 使 用 间接 层 以 节省 空间 
例 3.6 例如 在 图 3-7 的 索引 文件 中 ， 我 们 沿 索引 键 为 50 的 索引 项 指针 找到 中 间 “ 桶 ”文件 。 


52 PUD HERRAZ 


这 一 指针 刚好 将 我 们 带 到 桶 文件 中 第 一 个 块 的 最 后 一 个 指针 。 我 们 继续 向 前 查找 ， 找 到 下 一 块 
的 第 一 个 指针 。 因 为 索引 文件 中 键 值 为 60 的 索引 项 指针 刚好 指向 桶 文件 的 第 二 个 块 的 第 二 个 指 
针 ， 所 以 我 们 停止 查找 。 口 

在 图 3-7 所 示 的 方式 中 ， 只 要 查找 键 值 的 存储 空间 比 指针 大 并 且 每 个 键 平 均 出 现 至 少 两 次 ， 
就 可 以 节省 空间 。 不 过 ， 即 使 在 键 值 和 指针 大 小 相当 的 情况 下 ， 在 辅助 索引 上 使 用 间接 层 也 有 一 
个 重要 的 好 处 : 我 们 通常 可 以 在 不 访问 数据 文件 记录 的 前 提 下 利用 桶 的 指针 来 帮助 回答 一 些 查 
询 。 特 别 是 ， 当 查询 有 多 个 条 件 ， 而 每 个 条 件 都 有 一 个 可 用 的 辅助 索引 时 ， 我 们 可 以 通过 在 主 存 
中 将 指针 集合 求 交 来 找到 满足 所 有 条 件 的 指针 ， 然 后 只 需要 检索 交集 中 指针 指向 的 记录 。 这 样 ， 
我 们 就 节省 了 检索 满足 部 分 条 件 而 非 所 有 条 件 的 记录 所 需 的 IO RAOS, 

例 3.7 考虑 常用 的 Movie 关系 。 


Movie(title, year, length, genre, studioName, producerC#) 


假定 我 们 在 studioName 和 year 上 都 建立 了 有 间接 桶 的 辅助 索引 ， 而 且 我 们 要 执行 如 下 查询 : 

SELECT title 

FROM Movie 

WHERE studioName = ’Disney’ AND year = 2005; 

即 找 出 Disney 在 2005 年 制作 的 所 有 电影 。 

图 3-8 说 明 我 们 如 何 使 用 索引 来 回答 这 个 查询 。 通 过 studioName 上 的 索引 ， 我 们 找 出 了 所 有 
指向 Disney 制作 的 电影 的 指针 。 但 是 ， 我 们 并 不 把 这 些 记录 从 磁盘 上 取 到 主 存 中 ， 而 是 通过 year 
上 的 索引 ， 再 找 出 所 有 指向 2005 年 制作 的 电影 的 指针 。 然 后 我 们 求 两 个 指针 集 的 交集 ， 正 好 得 
到 2005 年 Disney 制作 的 所 有 电影 。 最 后 我 们 到 磁盘 上 去 检索 所 有 包含 一 部 或 几 部 这 样 的 电影 的 
块 ， 这 样 只 需 检索 尽 可 能 少 的 数据 块 。 


studio 的 桶 Movie 元 组 year 的 桶 





Studio 索引 Year 索引 
图 3-8 在 主 存 中 求 桶 的 交集 


3.1.8 文档 检索 和 倒 排 索引 
多 年 来 ， 信 息 检索 界 都 在 研究 文档 的 存储 和 按 关 键 字 集 高 效 检索 文档 的 问题 。 随 着 WWW 


O ”假若 我 们 直接 从 索引 而 非 桶 中 取得 指针 ， 也 可 以 使 用 这 一 指针 求 交 技 巧 。 
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出 现 以 及 在 线 保存 所 有 文档 成 为 可 能 ， 基 于 关键 字 的 文档 检索 已 成 为 数据 库 最 大 的 难题 之 一 。 
尽管 可 用 来 找 出 相关 的 文档 的 查询 有 多 种 ， 但 最 简单 、 最 常见 的 形式 可 用 关系 的 术语 描述 为 : 
。 一 个 文档 可 被 看 成 是 关系 Doc 的 元 组 。 这 个 关系 有 很 多 的 属性 ， 每 个 属性 对 应 于 文档 可 
能 出 现 的 一 个 词 。 每 个 属性 都 是 布尔 型 的 一 一 表明 该 词 在 该 文档 出 现 还 是 没有 出 现 。 因 
此 ， 这 一 关系 模式 可 以 被 看 作 : 


Doc(hasCat, hasDog, ... ) 


其 中 hasCat 取 值 为 真 当 且 仅 当 该 文档 中 至 少 出 现 一 次 “cat "这 个 词 。 
。 关系 Doc 的 每 个 属性 上 都 建 有 辅助 索引 。 不 过 ， 我 们 不 必 费 心 为 属性 值 为 FALSE 的 元 组 
建 索引 项 ; 相反 ， 索 引 只 会 将 我 们 带 到 出 现 该 词 的 那些 文档 。 也 就 是 说 ， 索 引 中 只 有 查 
找 键 值 为 TRUE 的 索引 项 。 
。 我 们 不 是 给 每 个 属性 ( 即 每 个 词 ) 建 立 一 个 单独 的 索引 ， 而 是 把 所 有 的 索引 合成 一 个 ， 称 
为 倒 排 索引 。 这 个 索引 使 用 间接 桶 来 提高 空间 利用 率 ， 正 如 3. 1. 7 节 中 讨论 的 那样 。 
例 3.8 图 3-9 所 示 为 一 个 倒 排 索引 。 取 代 记 录 数 据 文 件 的 是 一 个 文档 集合 ， 每 个 文档 可 以 
被 存放 在 一 个 或 多 个 磁盘 块 上 。 倒 排 索 引 本 身 由 一 系列 词 - 指针 对 组 成 ; 词 实际 上 是 索引 的 查 
找 键 。 正 如 目前 为 止 讨论 的 任何 一 种 索引 那样 ， 倒 排 索引 被 存储 在 连续 的 块 中 。 







.the cat 
is fat... 





«Fido the 
dog... 






文档 


图 3-9 文档 的 倒 排 索引 


指针 指向 “ 桶 ”文件 中 的 位 置 。 例 如 ， 在 图 3-9 中 ,“ecat "一 词 有 一 个 指针 指向 桶 文件 。 该 指 
针 指 向 所 有 包含 “cat” 的 文档 的 指针 列表 的 表 头 。 图 中 给 出 了 一 些 这 样 的 指针 。 类 似 地 ， 图 中 
“dog "一 词 的 指针 指向 一 个 指针 列表 ， 该 列表 中 指针 指向 包含 “dog " 的 所 有 文档 。 口 

桶 文件 中 指针 可 以 是 : 

1. 指向 文档 本 身 的 指针 。 

2. 指向 词 的 一 个 出 现 的 指针 。 在 这 种 情况 下 ， 指 针 可 以 是 由 文档 的 第 一 个 块 和 一 个 表示 该 
词 在 文档 中 出 现 次 数 的 整数 构成 的 对 。 

当 我 们 使 用 指针 “ 桶 ”指向 每 个 词 的 多 次 出 现 的 时 候 ， 我 们 可 能 就 会 想 扩展 这 个 想法 ， 使 桶 
数组 包含 更 多 有 关 词 的 出 现 的 信息 。 这 样 ， 桶 文件 本 身 就 成 了 有 重要 结构 的 记录 集合 。 这 种 做 法 
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早期 应 用 在 区 分 一 个 词 出 现在 文档 的 题目 、 摘 要 还 是 正文 中 的 情况 。 随 着 Web 上 文档 的 增长 ， 
尤其 是 使 用 HTML, XML 或 其 他 标记 语言 的 文档 的 增长 ， 我 们 也 可 以 指明 与 词 关联 的 标记 。 例 
如 ， 我 们 不 仅 可 以 区 分 出 现在 题 头 、 表 或 锚 中 的 词 ， 而 且 可 以 区 分 以 不 同 字体 和 字号 出 现 的 词 。 

例 3.9 图 3-10 所 示 为 一 个 标明 HTML 文档 中 词 的 出 现 情况 的 桶 文件 。 如 果 有 出 现 类 型 ( 即 
标记 ) ， 就 在 第 一 列 指明 。 第 二 、 第 三 列 一 起 构成 指针 指向 词 的 出 现 : 第 三 列 指明 文档 ， 而 第 二 
列 给 出 了 该 文档 中 该 词 出 现 的 位 置 。 








桶 中 的 播 入 与 删除 
在 一 些 图 例如 图 3-9 中 ,我 们 所 给 的 桶 是 大 小 适中 的 紧凑 数组 。 实 际 上 ， 它 们 是 单个 字 
段 (指针 ) 的 记录 ， 且 像 其 他 任何 记录 集合 一 样 存放 在 块 中 。 因 此 在 插入 和 删除 指针 时 ， 我 们 
可 用 目前 为 止 学 过 的 任 一 种 技术 ,例如 为 文件 的 扩充 预 留 空 闪 空 间 、 溢 出 块 和 可 能 的 块 内 或 
块 冯 记 录 移 动 。 在 后 一 种 情况 下 ， 当 我 们 移动 倒 排 索引 和 桶 中 指针 指向 的 记录 时 ， 我 们 必须 
小 心地 改变 从 倒 排 索引 到 桶 文件 中 的 相应 指针 。 


我 们 可 以 用 这 种 数据 结构 来 回答 关于 文档 的 各 种 查询 ， 而 且 不 用 仔细 查看 文档 。 例 如 ， 假 设 
我 们 想 找 出 有 关 狗 的 并 将 狗 与 猫 作 了 比较 的 文档 ; 没有 深刻 理解 文档 的 内 容 ， 我 们 就 无 法 准确 
地 回答 这 个 查询 。 但 是 ， 要 是 我 们 查找 符合 以 下 条 件 的 文档 ， 我 们 可 以 获得 一 个 很 好 的 提示 : 

a) 在 标题 中 提 到 dog( 狗 ) 。 

b) 在 某 个 锚 中 提 到 cat( 猫 ) 一 一 该 锚 可 能 是 连 到 一 个 关于 猫 的 文档 的 链接 。 














类 型 ue 





图 3-10 在 倒 排 索引 中 存储 更 多 的 信息 








对 信息 检索 的 进一步 讨论 

有 很 多 技术 可 用 于 改进 基于 关键 字 的 文档 检索 效率 。 尽 管 完 整 介绍 这 些 技术 已 超出 本 书 
的 范围 ， 这 里 介绍 两 种 有 用 的 技术 : 

1 抽取 词 干 。 在 将 单词 的 出 现 放 入 索引 中 之 前 ， 我 们 删除 词 的 后 缀 以 找 出 它 的 “ 词 
FF", 例如， 复数 名 词 可 被 当 作 其 单数 形式 处 理 。 因 此 , 例 3.8 中 的 人 鲁 排 索引 显然 使 用 了 
抽取 词 干 技术 ， 因 为 搜索 “dog” 一 词 时 我 们 不 仅 得 到 “dog” 的 文档 ,而且 得 到 一 个 有 “dogs” 
的 文档 。 1 
2. 无 用 词 。 最 常用 像 "“the”、“and "之 类 的 词 称 为 无 用 词 ， 通 常 不 包含 在 倒 排 索引 中 。 原 
因 在 于 好 儿 百 个 常用 词 出 现在 太 多 的 文档 中 ， 以 至 于 它 根本 无 益 于 检索 特定 主题 。 去 除 无 用 
词 还 可 以 明显 地 缩小 索引 。 
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我 们 可 以 通过 对 指针 求 交 来 回答 这 个 查询 。 也 就 是 说 ， 我 们 按 对 应 于 “cat” 的 指针 找到 这 一 
单词 的 所 有 出 现 。 我 们 从 桶 文件 中 选择 有 ”cat ”出现 且 类 型 为 “ 锚 ” 的 文档 指针 。 接 着 ， 我 们 找到 
“dog” 的 桶 中 项 目 ， 并 从 中 选择 类 型 为 "标题 "的 文档 指针 。 如 果 我 们 把 这 两 个 指针 集 相 交 ， 就 得 
到 符合 在 标题 中 提 到 “dog” 且 在 某 个 锚 中 提 到 “cat” 这 一 条 件 的 文档 。 口 


3.1.9 习题 

习题 3. 1. 1 假定 一 个 存储 块 可 存放 5 个 记录 ， 或 20 个 键 - 指针 对 。 已 知 有 个 记录 ， 如 果 表 示 成 n HR 
数 ， 创 建 以 下 两 种 数据 文件 各 需要 多 少 个 数据 块 : a) 稠密 索引 ; b) 稀疏 索引 ? 

习题 3. 1. 2 ”如果 数据 块 中 可 以 存放 50 个 记录 ,或 者 500 个 键 - 指针 对 ， 但 是 存放 数据 和 索引 的 数据 块 都 
要 求 最 多 只 能 填 满 80% ， 重 做 习题 3. 1. 1。 

1 习题 3. 1. 3 ”如 果 使 用 多 级 索引 ， 并 且 最 后 一 级 的 索引 只 能 包含 一 个 数据 块 ， 重 做 习题 3. 1. 1。 

! 习题 3. 1. 4 考虑 如 图 3-6 所 示 的 聚集 文件 组 织 结构 ， 且 假定 每 个 存储 块 可 以 放 5 个 制 片 厂 记录 或 电影 记 
录 。 再 假定 每 个 制 片 厂 制作 的 电影 数 都 在 1 到 m 之 间 均 匀 分 布 。 如 果 表示 成 m 的 函数 ， 检 索 某 个 制 片 厂 
和 它 所 制作 的 电影 所 需 的 平均 磁盘 VO 数 是 多 少 ? 如 果 电 影 记录 随机 分 布 在 大 量 块 中 ， 这 个 平均 磁盘 IO 
数 又 是 多 少 ? 

习题 3. 1.5 假定 一 个 存储 块 可 存放 5 个 记录 ,或 20 个 键 -指针 对 ,或 100 个 指针 。 如 果 我 们 使 用 图 3-7 的 
间接 桶 模式 : 

a) 如 果 平 均 每 个 查找 键 值 出 现在 10 个 记录 中 ,存放 5000 个 记录 和 它 的 辅助 索引 共 需 要 多 少 块 ? 如 果 不 使 
用 桶 又 需要 多 少 块 ? 
1b) 如 果 给 定 键 值 的 记录 数 没有 限制 ， 所 需 的 最 大 和 最 小 存储 块 数 各 为 多 少 ? 

1 习题 3. 1.6 在 习题 3.1.5(a) 的 假定 下 ， 在 有 桶 结构 和 无 桶 结构 时 查找 和 检索 具有 给 定 键 值 的 12 个 记录 所 
需 平均 磁盘 IO 各 为 多 少 ? 假定 开始 时 内 存 中 没有 任何 存储 块 ， 但 定位 索引 块 或 桶 的 块 时 ， 可 以 不 引信 额 
外 的 WO， 而 只 需要 检索 这 些 块 并 将 其 送信 主 存 的 IO, 

习题 3.1.7 ”如 果 我 们 使 用 一 个 扩充 的 倒 排 索引 ， 如 图 3-10 所 示 ， 那 我 们 就 能 执行 许多 其 他 类 型 的 查询 。 
说 明 如 何 使 用 这 种 索引 去 找到 
a) “cat” 和 “dog” 彼 此 相距 不 超过 5 个 位 置 并 且 出 现在 同一 类 元 素 ( 如 标题 、 正 文 或 锚 ) 中 的 文档 。 

b) “cat” 后 刚好 隔 一 个 位 置 就 跟 有 “dog” 的 文档 。 
c) 题 目 中 同时 出 现 “dog” 和 “cat” 的 文档 。 

习题 3. 1. 8 ”假定 我 们 有 一 个 2000 个 文档 的 库 ， 且 我 们 希望 建立 一 个 10 000 词 的 倒 排 索引 。 一 个 存储 块 能 
容纳 10 个 词 -指针 对 或 50 个 指针 ， 指 针 可 以 指向 文档 或 是 文档 的 某 个 位 置 。 词 的 分 布 为 Zipfian 分 布 ( 参 
见 5.4.3 节 中 的 “Zipfian 分 布 " 框 ) ,第 i 次 常见 的 词 出 现 的 次 数 是 100 OOOAT, FP i=1, 2, =, 10000, 
a) 假定 我 们 的 倒 排 索引 中 只 为 每 个 词 记录 出 现 该 词 的 所 有 文档 。 存 放 该 倒 排 索引 最 多 需要 多 少 个 存储 块 ? 
b) 如 果 最 常用 的 400 个 词 (“无 用 ” 词 ) 不 包括 在 索引 中 ， 重 做 (a) 。 
©) 假定 我 们 的 倒 排 索引 保存 指向 每 个 词 的 每 次 出 现 的 指针 。 存 放 该 倒 排 索引 需要 多 少 存储 块 ? 

d) 如 果 最 常用 的 400 个 词 不 包括 在 索引 中 ， 重 做 (ec) 。 
e) 每 个 文档 中 平均 有 多 少 个 词 ? 


3.2 B- 树 


虽然 一 级 或 两 级 索引 通常 有 助 于 加 快 查询 ， 但 在 商用 系统 中 常 使 用 一 种 更 通用 的 结构 。 这 
一 数据 结构 家 族 称 为 B - 树 ， 而 最 常 使 用 的 是 其 称 为 B + 树 的 变 体 。 实 质 上 : 

。B- 树 能 自动 地 保持 与 数据 文件 大 小 相 适 应 的 索引 层次 。 

© 对 所 使 用 的 存储 块 空间 进行 管理 ， 使 每 个 块 的 充满 程度 在 半 满 与 全 满 之 间 。 

在 接 下 来 的 内 容 中 ,我 们 将 讨论 “B - 树 ”， 但 具体 细节 都 针对 B+ 树 这 一 变 体 。 其 他 类 型 的 
B- 树 在 习题 中 讨论 。 
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3.2.1 B- 树 的 结构 

B- 树 把 它 的 存储 块 组 织 成 一 棵 树 。 这 棵 树 是 平衡 的 ， 即 从 树 根 到 树叶 的 所 有 路 径 都 一 样 
长 。 通 常 B- 树 有 三 层 : 根 、 中 间 层 和 叶 ， 但 也 可 以 是 任意 多 层 。 为 了 对 B - 树 有 一 个 直观 的 印 
象 ， 你 可 以 先 看 一 下 图 3-11、 图 3-12 和 图 3-13 ， 其 中 前 两 个 图 所 示 为 B - 树 结 点 ， 而 后 一 个 图 所 
示 为 一 棵 小 而 完整 的 B - 树 。 

对 应 于 每 个 B - 树 索 引 都 有 一 个 参数 "， 它 决定 了 B - 树 的 所 有 存储 块 的 布局 。 每 个 存储 块 
存放 nn 个 查找 键 值 和 n+1 个 指针 。 在 某 种 意义 上 讲 ，B - 树 的 存储 块 类 似 于 3. 1. 2 节 讲 述 的 索引 
块 ， 只 不 过 了 - 树 的 块 除了 有 个 键 - 指针 对 外 ， 还 有 一 个 额外 的 指针 。 在 存储 块 能 容纳 n 个 键 
和 n+1 个 指针 的 前 提 下 ,我们 把 n 取得 尽 可 能 大 。 

例 3.10 假定 我 们 的 存储 块 大 小 为 4096 个 字 节 ， 且 整数 型 键 值 占 4 个 字 节 ， 指 针 占 8 个 字 
节 。 要 是 不 考虑 存储 块 块头 信息 所 占 空间 ， 那 么 我 们 希望 找到 满足 4n +8(n+1) <4096 的 最 大 
整数 值 %。 这 个 值 是 n=340。 口 

下 面 几 条 重要 的 规则 限制 B - 树 的 在 储 块 中 能 出 现 的 东西 : 

o 叶 结 点 中 的 键 是 数据 文件 中 的 键 的 拷贝 ， 这 些 键 以 排 好 序 的 形式 ， 从 左 到 右 分 布 在 叶 结 
点 中 。 

根 结 点 中 至 少 有 两 个 指针 被 使 用 ”。 所 有 指针 指向 位 于 B - 树 下 一 层 的 存储 块 。 
叶 结 点 中 ， 最 后 一 个 指针 指向 它 右边 的 下 一 个 叶 结 点 存储 块 ， 即 指向 下 一 个 键 值 大 于 它 
的 块 。 在 叶 块 的 其 他 个 指针 当中 ， 至 少 有 L (n+1)/21 个 指针 被 使 用 且 指 向 数据 记录 ，; 
未 使 用 的 指针 可 看 作 空 指针 且 不 指向 任何 地 方 。 如 果 第 i 个 指针 被 使 用 ， 则 指向 具有 第 i 
个 键 值 的 记录 。 
在 内 层 结 点 中 ， 所 有 的 n+ 1 个 指针 都 可 以 用 来 指向 B - 树 中 下 一 层 的 块 。 它 们 中 至 少 
| (n+1)/2 1 个 指针 真正 使 用 (但 如 果 是 根 结 点 ， 则 不 管 n 多 大 都 只 要 求 至 少 两 个 指针 被 
使 用 ) 。 如 果 j 个 指针 被 使 用 ， 那 该 块 中 将 有 j -1 个 键 , 设 为 K，K,，…，K.1。 第 一 个 
指针 指向 B 一 树 的 一 部 分 ， 一些 键 值 小 于 K, 的 记录 可 在 这 一 部 分 找到 。 第 二 个 指针 指向 
B - 树 的 另 一 部 分 ， 所 有 的 键 值 等 于 K HDF K 的 记录 可 在 这 一 部 分 中 ……。 依 此 类 
. 推 。 最 后 ， 第 7 个 指针 指向 B - 树 的 又 一 部 分 ,一 些 键 值 大 于 等 于 的 记录 可 以 在 这 一 
部 分 中 找到 。 注 意 : 某 些 键 值 远 小 于 K 或 远大 于 .的 记录 可 能 根本 无 法 通过 该 块 到 
达 ， 但 可 通过 同一 层 的 其 他 块 到 达 。 
。 所 有 被 使 用 的 键 和 指针 通常 都 存放 在 数据 块 的 开头 位 置 ， 叶 结 点 第 (n+1) 个 指针 是 个 例 
外 ， 它 用 来 指向 下 一 个 叶 结 点 。 

例 3.11 在 我 们 的 B- 树 实例 中 ,我 们 将 设 n=3。 也 就 是 说 , 块 中 可 存放 3 个 键 值 和 4 个 
指针 ， 这 是 一 个 不 代表 通常 情况 的 小 数字 。 键 值 为 整数 。 图 3-11 所 示 为 一 个 完全 使 用 的 叶 结 点 。 
其 中 有 三 个 键 值 57、81 和 95。 前 三 个 指针 指向 具有 这 些 键 值 的 记录 ; 而 最 后 一 个 指针 ， 指 向 右 
边 键 值 大 于 它 的 下 一 个 叶 结 点 ， 这 正 是 叶 结 点 中 通常 的 情况 ， 如 果 该 叶 结 点 是 序列 中 的 最 后 一 
个 ， 则 该 指针 为 空 。 

叶 绪 点 不 必 全 部 充满 ， 但 在 我 们 这 个 例子 中 ，n =3， 故 时 结 点 至 少 要 有 两 个 键 -指针 对 。 也 
就 是 说 ， 图 3-11 中 的 键 值 95 可 以 没有 ， 如 果 是 这 样 ， 第 3 个 指针 为 空 。 





O ”从 技术 上 来 讲 ， 整 个 B - 树 的 块 只 有 一 个 指针 也 是 可 能 的 ， 因 为 它 可 能 是 只 有 一 个 记录 的 数据 文件 的 索引 。 在 这 
种 情况 下 ， 整 个 B -~ 树 既 是 根 块 又 是 叶 块 ， 且 这 个 块 只 有 一 个 键 值 和 一 个 指针 。 在 下 面 的 描述 中 我 们 忽略 这 种 平 
凡 的 情况 。 
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图 3-12 所 示 为 一 个 典型 的 内 部 结 点 。 其 中 有 三 个 键 值 ，14、52 和 78。 该 结 点 中 还 有 四 个 指 
针 。 第 一 个 指针 指向 B - 树 的 一 部 分 ， 通过 它 我 们 只 能 到 达 键 值 小 于 第 一 个 键 值 即 14 的 那些 记 
录 。 第 二 个 指针 通 向 键 值 介 于 该 B - 树 块 第 一 个 键 值 和 第 二 个 键 值 之 间 的 那些 记录 ， 第 三 个 指针 
对 应 键 值 介 于 该 块 第 二 个 键 值 和 第 三 个 键 值 之 间 的 那些 记录 ， 第 四 个 指针 将 我 们 引 向 键 值 大 于 
该 块 中 第 三 个 键 值 的 那些 记录 。 





指向 按 顺 序 的 
下 一 个 叶 结 点 
mnie KARY HAREN ME ”指向 键 值 。 指向 键 值 。 指向 键 人 
57 的 记录 81 的 记录 95 的 记录 K <14 1l4<K<52 52<K<78 K 278 
图 3-11 典型 的 B -树叶 结 点 图 3-12 ”典型 的 B- 树 内 部 结 点 
同 叶 结 点 的 例子 一 样 ， 内 部 结 点 的 键 和 指针 槽 也 没有 必要 全 部 占用 。 不 过 ， 当 ”=3 时 , 一 
个 内 部 结 点 至 少 要 出 现 一 个 键 和 两 个 指针 。 口 


例 3.12 图 3-13 所 示 为 一 棵 完整 的 三 层 B - 树 ; 其 中 =3， 如 例 3. 11 所 示 的 那样 。 我 们 假 
定数 据 文件 的 记录 的 键 是 从 2 到 47 之 间 的 所 有 素数 。 注 意 ， 这 些 值 在 叶 结 点 中 按 顺 序 出 现 一 次 。 
所 有 叶 结 点 都 有 2 个 或 3 个 键 - 指针 对 ， 还 有 一 个 指向 序列 中 下 一 叶 结 点 的 指针 。 当 我 们 从 左 到 
右 去 看 叶 结 点 时 ， 所 有 键 是 排 好 序 的 。 





图 3-13 B- 树 


根 结 点 仅 有 两 个 指针 ， 恰 是 允许 的 最 小 数目 ， 尽 管 至 多 可 有 4 个 指针 ， 根 结 点 中 的 那个 键 将 
可 通过 第 一 个 指针 访问 到 的 键 值 与 可 通过 第 二 个 指针 访问 到 的 键 值 分 隔 开 来 。 也 就 是 说 ， 不 超 
过 12 的 键 值 可 通过 根 结 点 的 第 一 个 子 树 找到 ; 大 于 等 于 13 的 键 值 可 通过 第 二 个 子 树 找到 。 

如 果 我 们 看 根 结 点 的 第 一 个 具有 键 值 7 的 子 结 点 ， 我 们 又 发 现 它 有 两 个 指针 ， 一 个 通 向 小 于 
7 的 键 ， 而 另 一 个 通 向 大 于 等 于 7 的 键 。 注 意 ， 该 结 点 的 第 二 个 指针 只 能 使 我 们 找到 键 7 和 11， 
而 非 所 有 的 大 于 7 的 键 ， 比 如 键 13。 

最 后 ， 根 结 点 第 二 个 子 结 点 的 4 个 指针 覃 都 被 使 用 。 第 一 个 指针 将 我 们 引 向 一 些 键 值 小 于 
23 的 键 ， 即 13 17 和 19。 第 二 个 指针 将 我 们 引 向 键 值 大 于 等 于 23 而 小 于 31 WARK; 第 三 
个 指针 将 我 们 引 向 键 值 大 于 等 于 31 而 小 于 43 的 所 有 键 K， 而 第 四 个 指针 将 我 们 引 向 一 些 键 值 大 
于 等 于 43 的 键 (在 这 个 例子 中 ， 是 所 有 的 键 ) 。 口 


3.2.2 B- 树 的 应 用 
B - 树 是 用 来 建立 索引 的 一 种 强 有 力 的 工具 。 它 的 叶 结 点 上 指向 记录 的 一 系列 指针 可 以 起 到 
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我 们 在 3. 1 节 学 过 的 任何 一 种 索引 文件 中 指针 序列 的 作用 。 下 面 是 一 些 实例 ; 

1. B- 树 的 查找 键 是 数据 文件 的 主键 ， 且 索引 是 稠密 的 。 也 就 是 说 ， 叶 结 点 中 为 数据 文件 的 
每 一 个 记录 设 有 一 个 键 - 指针 对 。 该 数据 文件 可 以 按 主 键 排序 ， 也 可 以 不 按 主 键 排序 。 

2. 数据 文件 按 主键 排序 ， 且 B + 树 是 稀疏 索引 ， 在 叶 结 点 中 为 数据 文件 的 每 个 块 设 有 一 个 
键 - 指针 对 。 

3. 数据 文件 按 非 键 属性 排序 ， 且 该 属性 是 B + 树 的 查找 键 。 叶 结 点 中 为 数据 文件 里 出 现 的 
每 个 属性 值 天 设 有 一 个 键 - 指针 对 ， 其 中 指针 指向 排序 键 值 为 玉 的 记录 中 的 第 一 个 。 

B - 树 变种 的 另 一 些 应 用 允许 叶 结 点 中 查找 键 重复 出 现 s 。 图 3-14 所 示 即 为 这 样 -一 棵 B - 树 。 











图 3-14 ”一 棵 带 重 复 键 的 B - 树 


如 果 我 们 确实 允许 查找 键 的 重复 出 现 ， 我 们 就 需要 稍微 修改 对 内 部 结 点 中 键 的 涵义 的 定义 ， 
我 们 曾 在 3. 2. 1 节 中 讨论 过 这 一 定义 。 现 在 ,假定 一 个 内 部 结 点 的 键 为 K，K,，…，K,， 那 么 
K 将 会 是 从 第 i+1 个 指针 所 能 访问 的 子 树 中 出 现 的 最 小 新 键 。 这 里 的 “新 ”， 我 们 是 指 在 树 中 第 
i+1 个 指针 所 指向 的 子 树 以 左 没 有 出 现 过 KK,, 但 K, 在 第 i+1 个 指针 指向 的 子 树 中 至 少 出 现 一 
次 。 注 意 ， 在 某 些 情况 下 可 能 不 存在 这 样 键 ， 这 时 K, 可 以 为 空 ， 但 它 对 应 的 指针 仍然 需要 ， 因 
为 它 指向 树 中 碰巧 只 有 一 个 键 值 的 那个 重要 的 部 分 。 

例 3.13 图 3-14 所 示 的 B- 树 类 似 于 图 3-13, 但 有 重复 键 值 。 具 体 来 说 ; 键 11 已 被 键 13 
RR; 键 19、29 和 31 全 部 被 键 23 替换 。 这 样 就 造成 根 结 点 的 键 是 17 而 不 是 13 。 原 因 在 于 ， 虽 
然 13 是 第 二 个 子 树 根 结 点 中 最 小 的 键 ， 但 它 不 是 该 子 树 的 新 键 ， 因 为 它 在 根 结 点 的 第 一 个 子 树 
中 出 现 过 。 

我 们 还 需要 对 根 结 点 的 第 二 个 子 结 点 做 些 改变 。 第 二 个 键 改 为 37， 因 为 它 是 第 三 个 子 结 点 
(从 左 数 起 第 五 个 叶 结 点 ) 的 第 一 个 新 键 。 最 有 趣 的 是 ， 第 一 个 键 现在 为 空 ， 因 为 第 二 个 子 结 点 
《第 四 个 时 结 点 ) 根 本 就 没有 新 键 。 换 言 之 ， 如 果 我 们 查找 某 个 键 且 到 达 根 结 点 的 第 二 个 子 结 点 ， 
我 们 不 会 从 该 子 结 点 的 第 二 个 子 结 点 起 开始 查找 。 若 是 查找 23 或 其 他 更 小 的 值 ， 我 们 应 该 从 它 
的 第 一 个 子 结 点 起 开始 查找 ， 在 那里 我 们 将 找到 所 需 的 记录 (如 果 是 17) ， 或 找到 所 需 的 记录 的 
第 一 个 (如 果 是 23 ) 。 

TER: 

。 查找 13 时 我 们 不 会 到 达 根 结 点 的 第 二 个 子 结 点 ， 而 是 直接 到 第 一 个 子 结 点 中 去 查找 。 

。 如 果 我 们 查找 介 于 24 和 36 之 间 的 某 个 键 ， 我 们 会 直接 到 第 三 个 叶 结 点 中 查找 。 但 当 我 

们 连 一 个 所 需 键 值 都 找 不 到 时 ， 我 们 就 知道 不 必 继 续 往 右 查 找 。 举 例 来 说 ， 如 果 叶 结 点 





日 ” 记 住 ,如 果 " 键 ”必须 唯一 ， 那 么 这 个 意义 上 来 说 “查找 键 "不 一 定 是 “ 键 ”。 
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中 存在 键 24， 它 要 么 在 第 四 个 叶 结 点 上 ， 这 时 根 结 点 的 第 二 个 子 结 点 中 的 空 键 将 会 被 24 
BK; 要 么 在 第 五 个 叶 结 点 上 ， 这 时 根 结 点 的 第 二 个 子 结 点 的 键 37 将 被 24 EK. 口 


3.2.3 B- 树 的 查找 

我 们 现在 再 回 到 最 初 的 假定 ， 即 叶 结 点 中 没有 重复 键 。 同 时 我 们 假定 B - 树 是 稠密 索引 ， 因 
而 在 数据 文件 中 出 现 的 每 个 查找 键 都 会 在 叶 结 点 中 出 现 。 这 些 假 定 可 以 简化 对 B - 树 操作 的 讨 
论 ， 但 这 些 假定 对 这 些 操 作 来 说 并 非 必 不 可 少 的 。 比 如 说 ， 在 稀疏 索引 上 的 修改 和 我 们 在 3.1.3 
节 中 介绍 的 顺序 文件 上 的 修改 类 似 。 

假设 我 们 有 一 棵 B - 树 索 引 ， 并 且 想 找 出 查找 键 值 为 天 的 记录 。 我 们 从 根 到 叶 递 归 查找 ， 查 
找 过 程 为 : 

基础 ” 若 我 们 处 于 叶 结 点 上 ， 我 们 就 在 其 键 值 中 查找 。 若 第 i 个 键 是 KX， 则 第 i 个 指针 可 让 
我 们 找到 所 需 记 录 。 

归纳 ”车 我 们 处 于 某 个 内 部 结 点 ， 且 它 的 键 为 K,，K,，…，K,， 则 依据 在 3.2.1 节 中 给 
出 的 规则 来 决定 下 一 步 该 对 此 结 点 的 哪个 子 结 点 进行 查找 。 也 就 是 说 ， 只 有 一 个 子 结 点 可 使 
我 们 找到 具有 键 玉 的 时 结 点 。 如 果 天 < 天 ， 则 为 第 一 个 子 结 点 ; MRK, EKK, WAZA 
子 结 点 …… 在 这 一 子 结 点 上 递归 地 运用 查找 过 程 。 

例 3. 14 假定 我 们 有 一 棵 如 图 3-13 所 示 的 B - 树 ， 且 我 们 想 找到 查找 键 为 40 的 记录 。 我 们 
从 根 结 点 开始 ， 其 中 有 一 个 键 3 。 因 为 13 <40， 我 们 就 沿 着 它 的 第 二 个 指针 来 到 包含 键 为 23、 
31 和 43 的 第 二 层 结 点 。 

在 这 个 结 点 中 ， 我 们 发 现 31<40 <43， 因 而 我 们 沿 着 第 三 个 指针 来 到 包含 31、37 和 40 的 叶 
结 点 ， 如 果 数 据 文件 中 有 键 值 为 40 的 记录 ， 我 们 就 应 该 在 这 个 叶 结 点 中 找到 键 和 0。 既 然 我 们 没 
有 发 现 键 40， 我 们 可 以 断定 在 底层 的 数据 块 中 没有 键 值 为 40 的 记录 。 

注意 ， 要 是 我 们 的 查找 键 为 37 的 记录 ， 我 们 所 做 的 决定 都 和 上 面 一 样 ， 但 当 我 们 到 达 叶 结 
点 时 ， 我 们 将 找到 键 37 。 因 为 它 是 叶 结 点 中 第 二 个 键 ， 因 此 我 们 沿 着 第 二 个 指针 可 以 找到 键 值 
为 37 的 数据 记录 。 口 


3.2.4 范围 查询 

B - 树 不 仅 对 搜寻 单个 查找 键 的 查询 很 有 用 ， 而 且 对 查找 键 值 在 某 个 范围 内 的 查询 也 很 有 
用 。 一 般 来 说 ， 范 围 查 询 在 whee 子 句 中 有 一 个 项 ， 该 项 将 查找 键 与 单个 值 或 多 个 值 相 比较 ， 可 
用 除 “ = "和 ”< > "之 外 的 其 他 比较 运算 符 。 使 用 查找 键 属性 上 的 范围 查询 例子 如 下 : 


SELECT * FROM R SELECT * FROM R 
WHERE R.k > 40; WHERE R.k >= 10 AND R.k <= 25; 


如 果 我 们 想 在 B -树叶 结 点 上 找 出 在 范围 la, bj 之 间 的 所 有 键 值 ， 我 们 通过 一 次 查找 来 找 出 
键 a。 不 论 它 是 否 存 在 ， 我 们 都 将 到 达 可 能 出 现 a 的 叶 结 点 ,然后 我 们 在 该 叶 结 点 中 查找 键 a 或 
KF a 的 那些 键 。 我 们 所 找到 的 每 个 这 样 的 键 都 有 一 个 指针 指向 相应 的 记录 ， 这 些 记录 的 键 在 所 
需 的 范围 内 。 只 要 在 当前 叶 结 点 中 不 存在 比 5 KANE, 我们 就 跟踪 指向 下 一 个 叶 结 点 的 指针 继续 
查找 [a, 5] 之 间 的 所 有 键 值 。 

上 面 的 查找 算法 当 4 为 无 穷 时 也 有 效 ; 即 项 中 只 有 一 个 下 界 而 没有 上 界 。 在 这 种 情况 下 ， 我 
MERE a 可 能 出 现 的 叶 结 点 开始 到 最 后 一 个 叶 结 点 的 所 有 叶 结 点 。 如 果 a 为 - wm ( 即 项 中 有 一 
个 上 界 而 没 下 界 )， 那么， 在 查找 “ 负 无 穷 ”时 ， 不 论 我 们 处 于 B - 树 的 哪个 结 点 ,我 们 总 被 引 向 
该 结 点 的 第 一 个 子 结 点 ， 即 我 们 最 终 将 找到 第 一 个 叶 结 点 。 然 后 我 们 按 上 述 过 程 查找 ， 仅 在 超过 
键 b 时 停止 查找 。 

例 3.15 ”假定 我 们 有 一 棵 如 图 3-13 所 示 的 B - 树 ， 给 定 查 找 范围 是 (10，25)。 我 们 查找 键 
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10， 找 到 第 二 个 叶 结 点 ， 它 的 第 一 个 键 小 于 10， 但 第 二 个 键 EAT 10。 我 们 沿 着 它 的 相应 指 
针 找 到 键 为 11 的 记录 。 

因为 第 二 个 叶 结 点 中 已 没有 其 他 的 键 ， 我们 沿 着 链 找 到 第 三 个 叶 结 点 ， 其 键 为 13、17 和 
19。 这 些 键 都 小 于 或 等 于 25， 因 此 我 们 沿 着 它们 的 相应 指针 检索 具有 这 些 键 的 记录 。 最 后 ,我 
们 移 到 第 四 个 叶 结 点 ， 在 那里 我 们 找到 键 23。 而 该 叶 结 点 的 下 一 个 键 29 超过 了 25 ， 因 而 我 们 已 
完成 我 们 的 查找 。 这 样 ， 我 们 就 检索 出 了 键 11 到 键 23 的 五 个 记录 。 口 


3.2.5 B- 树 的 插入 ` 

当 我 们 考虑 如 何 插入 一 个 新 键 到 B - 树 时 ， 我 们 就 会 发 现 B - 树 优 于 简单 多 级 索引 的 一 些 地 
方 。 对 应 的 记录 可 使 用 3.1 节 中 介绍 的 任何 方法 插入 到 被 B - 树 索 引 的 数据 文件 中 ; 这 时 ， 我 们 
只 考虑 B - 树 如 何 相应 地 修改 。 插 入 原则 上 是 递归 的 : 

© 我 们 设法 在 适当 的 叶 结 点 中 为 新 键 找到 空闲 空间 ， 如 果 有 的 话 ， 我 们 就 把 键 放 在 那里 。 

。 如 果 在 适当 的 叶 结 点 中 没有 空间 ， 我们 就 把 该 叶 结 点 分 裂 成 两 个 并 且 把 其 中 的 键 分 到 这 
两 个 新 结 点 中 ， 使 每 个 新 结 点 有 一 半 或 刚好 超过 一 半 的 键 。 

e。 某 一 层 的 结 点 分 裂 在 其 上 一 层 看 来 ， 相 当 于 是 要 在 这 一 较 高 的 层次 上 摘 人 一 个 新 的 键 - 
指针 对 。 因 此 ， 我 们 可 以 在 这 一 较 高 层次 上 逆 归 地 使 用 这 个 插 人 策略 : 如 果 有 空间 ， 则 
插入 ; 如 果 没 有 ， 则 分 裂 这 个 父 结 点 且 继 续 向 树 的 高 层 推进 。 

。 例外 的 情况 是 ， 如 果 我 们 试图 插入 键 到 根 结 点 中 并 且 根 结 点 没有 空间 ， 那 么 我 们 就 分 裂 
根 结 点 成 两 个 结 点 且 在 更 上 一 层 创建 一 个 新 的 根 结 点 ， 这 个 新 的 根 结 点 有 两 个 刚 分 裂 成 
的 结 点 作为 它 的 子 结 点 。 回 想 一 下 ， 不管 n( 结 点 中 键 的 权 数 ) 多 大 ， 根 结 点 总 是 允许 只 
有 一 个 键 和 两 个 子 结 点 。 

当 我 们 分 裂 结 点 并 在 其 父 结 点 中 插入 时 ， 我 们 需要 小 心地 处 理 键 。 首 先 ， 假定 N 是 一 个 容 

量 为 n 个 键 的 叶 结 点 ， 且 我 们 正 试图 给 它 插入 第 (n +1) 个 键 和 它 相 应 的 指针 。 我 们 创建 一 个 新 
结 点 有 M， 该 结 点 将 成 为 N 结 点 的 兄弟 ， 紧 挨 在 NN 的 右边 。 按 键 排序 顺序 的 前 [「 (n+ 1)/21 个 键 - 
指针 对 保留 在 结 点 N 中 ; 而 其 他 的 键 - 指针 对 移 到 结 点 M 中 ,注意 ， 结 点 M 和 结 点 NN 中 都 有 足 
够 数量 的 键 - 指针 对 ， 即 至 少 有 L (n+1)/21 个 这 样 的 键 - 指针 对 。 

现在 ,假定 N 是 一 个 容量 为 n 个 键 和 n+1 个 指针 的 内 部 结 点 ， 并 且 由 于 下 层 结 点 的 分 裂 入 
正好 又 被 分 配给 第 (n+2) 个 指针 。 我 们 执行 下 列 步骤 : 

1. 创建 一 个 新 结 点 MK， 它 将 是 六 结 点 的 兄弟 且 紧 挨 在 N 的 右边 。 

2. 按 排序 顺序 将 前 [ (n+2)/2 1 个 指针 留 在 结 点 N 中 ， 而 把 剩 下 的 | C + 2)/2 1 个 指针 移 到 
结 点 MN 中 。 

3. 前 「 2 1 个 键 保留 在 结 点 W 中 ， 而 后 Ln/2 个 键 移 到 结 点 MM 中。 注意 ， 在 中 间 的 那个 键 总 
是 被 留 出 来 ， 它 既 不 在 结 点 入 中 也 不 在 结 点 中。 这 一 留 出 的 键 天 指明 通过 1 的 第 一 个 子 结 点 
可 访问 到 最 小 键 。 尽 管 K 不 出 现在 N 中 也 不 出 现在 M 中 ,但 它 代表 通过 能 到 达 的 最 小 键 值 ， 
从 这 种 意义 上 来 说 它 与 MM 相连 。 因 此 ,下 将 会 被 结 点 NN 和 MM 的 父 结 点 用 来 划分 在 这 两 个 结 点 之 
间 的 查找 。 

例 3.16 让 我 们 在 图 3-13 所 示 的 B- 树 中 插入 键 40。 我 们 根据 3.2.3 节 中 的 查找 过 程 找到 
插入 的 叶 结 点 。 如 例 3. 14 一 样 ， 我 们 找到 第 五 个 叶 结 点 来 插入 。 因 为 该 叶 结 点 现在 有 四 个 键 - 
指针 对 : 31、37、40 和 41， 所 以 我 们 需要 分 裂 这 个 叶 结 点 。 首 先是 创建 一 个 新 结 点 ， 并 把 两 个 
RANE 4 和 41 以 及 它们 的 指针 移 到 新 结 点 。 图 3-15 表示 了 这 个 分 裂 。 
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图 3-15 键 40 插 入 之 初 


注意 ， 虽 然 我 们 现在 把 这 些 结 点 显示 为 四 排 ， 但 对 树 而 言 还 是 只 有 三 层 ， 而 七 个 叶 结 点 占据 
了 图 中 的 后 两 排 。 这 些 叶 结 点 通过 各 自 的 最 后 一 个 指针 链接 起 来 ， 仍 形成 了 一 条 从 左 到 右 的 链 。 

我 们 现在 必须 播 人 一 个 指向 新 叶 结 点 (具有 键 40 和 41 的 那个 结 点 ) 的 指针 到 它 上 面 的 那个 
结 点 (具有 键 23、31 和 43 的 那个 结 点 ) ， 我 们 还 必须 把 该 指针 与 键 40 关联 起 来 ， 因 为 键 40 是 通 
过 新 叶 结 点 可 访问 到 的 最 小 键 。 很 不 巧 ， 分 裂 结 点 的 父 结 点 已 满 ， 它 没有 空间 来 存放 别 的 键 或 指 
针 。 因 此 ， 它 也 必须 分 裂 。 

我 们 开始 先 找 到 指向 后 五 个 叶 结 点 的 指针 和 表示 这 些 叶 结 点 中 后 四 个 的 最 小 键 的 键 列表 。 
也 就 是 说 ， 我 们 有 指针 PL, P2, P3, PA, PS 指向 这 些 叶 结 点 ， 它 们 的 最 小 键 分 别 是 13、23、 
31、40 和 43 ， 并 且 我 们 用 键 序列 23、31、40、43 来 分 隔 这 些 指针 。 前 三 个 指针 和 前 两 个 键 保留 
在 被 分 裂 的 内 部 结 点 中 ; 而 后 两 个 指针 和 后 一 个 键 放 到 一 个 新 结 点 中 。 剩 下 的 键 是 40， 表 示 通 
过 新 结 点 可 访问 到 最 小 键 。 

插入 键 40 后 的 结果 如 图 3-16 所 示 。 根 结 点 现在 有 三 个 子 结 点 ， 最 后 两 个 是 分 裂 的 内 部 结 
点 。 注 意 , 键 和 0 标志 着 通过 分 裂 结 点 的 第 二 个 子 结 点 可 访问 到 的 最 小 键 ， 它 被 安置 在 根 结 点 中 ， 
用 来 区 分 根 结 点 的 第 二 个 子 结 点 和 第 三 个 子 结 点 的 键 。 口 





图 3-16 $240 插 人 完成 后 
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3.2.6 B- 树 的 删除 

如 果 我 们 要 删除 一 个 具有 给 定 键 K 的 记录 ， 我 们 必须 先 定位 该 记录 和 它 在 B -树叶 结 点 中 的 
键 - 指针 对 。 删 除 过 程 中 的 这 个 部 分 主要 是 查找 ， 与 3.2. 3 节 所 述 一 样 。 然 后 我 们 删除 记录 本 身 
并 从 B - 树 中 删除 它 的 键 - 指针 对 。 

如 果 发 生 删 除 的 B - 树 结 点 在 删除 后 至 少 还 有 最 小 数目 的 键 和 指针 ， 那 就 不 需要 再 做 什么 e。 
但 是 ， 结 点 有 可 能 在 删除 之 前 正好 具有 最 小 的 充满 度 ， 因 此 在 删除 后 ， 就 违背 了 对 键 数目 的 约 
束 。 这 时 ， 我 们 需要 为 这 个 键 的 数目 仅 次 于 最 小 数目 的 结 点 N 做 下 面 两 件 事 之 一 ， 其 中 有 一 种 
情况 需要 沿 着 树 往 上 递归 地 删除 。 

1. 如 果 与 结 点 N 相 邻 的 兄弟 中 有 一 个 的 键 和 指针 超过 最 小 数目 ， 那 它 的 一 个 键 - 指针 对 可 
以 移 到 结 点 N 中 并 保持 键 的 顺序 。 结 点 N 的 父 结 点 的 键 可 能 需要 调整 以 反映 这 个 新 的 情况 。 例 
如 ， 如 果 结 点 N 的 右边 的 兄弟 M 可 提供 一 个 键 和 指针 ， 那 么 从 结 点 MW 移 到 结 点 N 的 键 一 定 是 结 
AM 的 最 小 键 。 在 结 点 M 和 结 点 NN 的 父 结 点 有 一 个 表示 通过 M 可 访问 到 的 最 小 键 ， 必 须 增 大 该 
键 值 以 反映 新 的 Mo 

2. 困难 的 情况 是 当 相 邻 的 两 个 兄弟 中 没有 一 个 能 提供 键 值 给 结 点 W 时 。 不 过 ， 在 这 种 情况 
下 ， 我 们 有 结 点 N 和 它 的 一 个 兄弟 结 点 好 这 两 个 相 邻 结 点 ， 其 中 后 者 的 键 数 刚好 为 最 小 数 ， 而 
前 者 的 键 数 少 于 最 小 数 。 因 此 ， 它 们 合 在 一 起 也 没有 超过 单个 结 点 所 允许 的 键 和 指针 数 。 我 们 合 
并 这 两 个 结 点 ， 实 际 上 就 是 删除 它们 中 的 一 个 。 我 们 需要 调整 父 结 点 的 键 ， 然 后 删除 父 结 点 的 一 
个 键 和 指针 。 如 果 父 结 点 现在 足够 满 ， 那 我 们 就 完成 了 删除 操作 ， 否 则 ， 我 们 需要 在 父 结 点 上 弟 
归 地 运用 这 个 删除 算法 。 

例 3.17 让 我 们 从 图 3-13 所 示 最 初 的 B - 树 开 始 ， 即 在 键 40 插入 之 前 开始 。 假 定 我 们 删除 
键 7。 该 键 在 第 二 个 叶 结 点 中 被 找到 。 我 们 删除 该 键 、 该 键 对 应 的 指针 以 及 指针 指向 的 记录 。 

第 二 个 叶 结 点 现在 只 剩 下 一 个 键 ， 而 我 们 需要 每 个 叶 结 点 至 少 有 两 个 键 。 但 该 结 点 左边 的 
兄弟 ， 即 第 一 个 叶 结 点 ， 有 一 个 额外 的 键 -指针 对 ， 这 就 帮 了 我 们 的 大 忙 。 我 们 因此 可 以 将 它 的 
最 大 键 以 及 它 的 相应 指针 移 到 第 二 个 叶 结 点 。 产 生 的 B - 树 如 图 3-17 所 示 。 注 意 ， 因 为 第 二 个 
叶 结 点 的 最 小 键 现在 是 5， 所 以 前 两 个 叶 结 点 的 父 结 点 的 键 从 7 改 为 5。 














图 3-17 键 7 的 删除 


下 一 步 ， 假 定 我 们 删除 键 11。 这 个 删除 对 第 二 个 叶 结 点 产生 同样 的 影响 ;又 一 次 把 它 的 键 
数 减少 到 低 于 最 小 数 。 不 过 ， 这 次 我 们 不 能 从 第 一 个 叶 结 点 借 键 ， 因 为 后 者 的 键 数 也 到 了 最 小 





O ”如果 具有 叶 结 点 中 最 小 键 的 数据 记录 被 删除 ， 那 么 我 们 可 选择 在 该 叶 结 点 的 某 个 祖先 上 将 某 个 合适 的 键 增 大 ， 
但 不 一 定 非 这 样 做 不 可 ; 所 有 的 查找 仍 能 找到 正确 的 叶 结 点 。 
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数 。 另 外 ， 它 的 右边 没有 兄弟 ， 也 就 是 无 处 可 借 ”。 这 样 ， 我 们 需要 合并 第 二 个 叶 结 点 和 它 的 兄 
弟 ， 即 第 一 个 叶 结 点 。 

前 两 个 叶 结 点 剩 下 的 三 个 键 -指针 对 可 以 放 在 一 个 叶 结 点 中 ， 因此， 我 们 把 键 5 移 到 第 一 个 
叶 绪 点 并 删除 第 二 个 叶 结 点 。 父 结 点 中 的 键 和 指针 需要 进行 调整 ， 以 反映 它 的 子 结 点 的 新 情况 ; 
具体 地 说 ， 它 的 两 个 指针 被 换 成 一 个 指针 (指向 剩 下 的 叶 结 点 ) 且 键 5 不 再 有 用 也 被 删除 。 现 在 
的 情况 如 图 3-18 所 示 。 











图 3-18 键 11 删除 之 初 


叶 结 点 的 删除 给 它 的 父 结 点 即 根 结 点 的 左 子 结 点 带 来 了 负面 的 影响 。 正 如 我 们 在 图 3-18 中 
所 看 到 的 那样 ， 该 结 点 现在 没有 键 且 只 剩 一 个 指针 。 因 此 ， 我 们 试图 从 与 它 相 邻 的 兄弟 那里 获得 
一 个 额外 的 键 和 指针 。 这 次 ， 我 们 碰 到 容易 的 情况 ， 因 为 根 结 点 的 另 一 个 子 结 点 可 以 提供 它 的 最 
小 键 和 一 个 指针 。 

变化 如 图 3-19 所 示 。 指 向 键 为 13、17 和 19 的 叶 结 点 的 指针 从 根 结 点 的 第 二 个 结 点 移 到 了 它 
的 第 一 个 子 结 点 。 我 们 还 修改 了 内 部 结 点 的 一 些 键 。 键 13 原来 位 于 根 结 点 且 表 示 通 过 那个 被 转 
移 的 指针 可 访问 到 的 最 小 键 ， 现 在 需要 放 到 根 结 点 的 第 一 个 子 结 点 中 。 另 一 方面 ， 键 23 原来 用 
来 区 分 根 结 点 第 二 个 子 结 点 的 第 一 个 和 第 二 个 子 结 点 ， 现 在 表示 通过 根 结 点 第 二 个 子 结 点 可 访 
问 到 最 小 键 ， 因 此 它 被 放 到 根 结 点 中 。 口 
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Æ 3-19 键 11 删除 完成 后 


O 注意 : 它 右 边 的 键 为 13、17 和 19 的 叶 结 点 不 是 它 的 兄弟 ， 因 为 它们 有 不 同 的 父 结 点 。 不 论 怎 样 ， 我 们 还 是 可 以 从 那个 
结 点 “ 借 ” 键 的 ， 但 那样 的 话 ， 调 整 键 的 算法 将 涉及 整个 树 ， 因 而 使 算法 变 得 更 复杂 。 我 们 把 这 一 改进 留 作 习题。 
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3.2.7 B- 树 的 效率 

B- 树 使 我 们 能 实现 记录 的 查找 、 插 入 和 删除 ， 而 每 个 文件 操作 只 需 很 少 的 磁盘 IO。 首 先 
我 们 就 注意 到 ， 如 果 每 个 块 容纳 的 键 数 ”相当 大 ， 那 么 ， 分 裂 或 合并 块 的 情况 将 会 很 少 。 此 外 ， 
当 这 种 操作 必需 时 ， 绝 大 多 数 时 候 都 被 局 限 在 叶 结 点 ， 因 此 只 有 两 个 叶 结 点 和 它们 的 父 结 点 受 
到 影响 。 所 以 ， 我 们 基本 上 可 以 忽略 B - 树 重 组 的 IO 开销 。 

然而 ， 每 次 按 给 定 查找 键 值 查找 记录 都 需要 我 们 从 根 结 点 一 直 访 问 到 叶 结 点 ， 以 找到 指向 
记录 的 指针 。 因 为 我 们 只 读 B - 树 的 块 ， 所 以 磁盘 VO 数 将 是 B - 树 的 层 数 加 上 一 次 (对 查找 而 
言 ) 或 两 次 (对 插入 或 删除 而 言 ) 处 理 记 录 本 身 的 磁盘 LO。 我 们 肯定 会 这 样 问 ， B - 树 到 底 有 多 
D? 对 于 典型 的 键 、 指 针 和 块 大 小 来 说 ， 三 层 就 足够 了 ， 除 非 数 据 库 极 大 。 因 此 ， 我 们 一 般 取 
3 作为 B - 树 的 层 数 。 下 面 的 例子 说 明 其 原因 。 

例 3. 18 回忆 一 下 我 们 在 例 3. 10 中 的 分 析 ， 我 们 当时 确定 每 块 可 容纳 示例 数据 的 340 个 键 - 
指针 对 。 假 车 一 般 的 块 充满 度 介 于 最 大 和 最 小 中 间 ， 即 一 般 的 块 有 255 个 指针 。 一 个 根 结 点 ， 有 
255 个 子 结 点 ， 有 255° = 65 025 个 叶 结 点 ; 在 这 些 叶 结 点 中 ,我 们 可 以 有 255: ， 即 约 1. 66 x 10° 万 个 指 
向 记录 的 指针 。 也 就 是 说 ， 记 录 数 小 于 等 于 1. 66 x10? 万 的 文件 都 可 以 被 3 层 的 B - 树 容纳 。 口 

不 过 ， 对 于 每 次 查找 ， 我 们 甚至 可 以 通过 B - 树 用 比 3 次 还 少 的 磁盘 1/0 来 实现 。B - 树 根 
结 点 块 是 永久 地 缓冲 在 主 存 中 的 绝 佳 选择 。 如 果 这 样 ， 那 么 每 次 查找 3 层 的 B - 树 只 需 两 次 磁盘 
读 操 作 。 实 际 上 在 某 些 情况 下 ， 把 B - 树 的 第 二 层 结 点 块 保存 在 缓冲 区 中 也 是 合理 的 。 这 样 ， 
B- 树 的 查找 就 减少 到 一 次 磁盘 VO 再 加 上 处 理 数据 文件 本 身 的 所 需 磁盘 0。 


我 们 是 否 该 从 日 - 树 中 删除 ? 

有 一 些 B- 树 的 实现 根本 不 对 删除 做 修复 。 如 果 叶 结 点 键 和 指针 太 少 ， 也 让 它 保 留 这 种 
状态 。 其 基本 理由 在 于 ， 大 多 数 文件 的 发 展 比较 平衡 ， 尽 管 有 时 可 能 出 现 使 键 数 刚好 少 于 最 
小 数 的 删除 操作 ， 但 该 叶 结 点 可 能 很 快 增长 并 且 再 次 达到 键 - 指针 对 的 最 小 数 。 

此 外 ， 如 果 记 录 有 来 自 B- 树 索引 外 的 指针 ， 那 么 ， 我 们 需要 用 “删除 标记 ”来 替换 记录 ， 
并 且 我 们 不 想 删除 B- 树 中 的 关于 它 的 指针 。 在 某 些 情况 下 ， 如 果 可 以 保证 所 有 对 删除 记录 
的 访问 都 将 通过 B - 树 ， 我 们 甚至 可 以 在 B- 树叶 结 点 中 指向 记录 的 指针 处 留 下 删除 标记 。 
这 样 ， 该 记录 的 空间 就 可 以 重新 使 用 。 








3.2.8 习题 
习题 3.2. 1 假定 存储 块 能 放 10 个 记录 或 者 99 个 键 和 100 个 指针 ， 再 假定 B - 树 结 点 的 平均 充满 度 为 
70% ; 即 有 69 个 键 和 70 个 指针 。 我 们 可 以 用 B - 树 作为 几 种 不 同 结构 的 一 部 分 。 对 下 面 描述 的 每 种 结 
构 ， 确 定 :(i)1 000 000 个 记录 的 文件 所 需 的 总 块 数 ; (ii) 检索 一 个 给 定 键 值 的 记录 所 需 的 平均 磁盘 O 
数 。 可 以 假定 最 初 主 存 中 不 存在 任何 东西 ， 并 且 查 找 键 是 记录 的 主键 。 
a) 数 据 文件 是 按 查 找 键 排序 的 顺序 文件 ， 每 块 存放 20 个 记录 。B - 树 为 稠密 索引 。 
b) 同 (a) 一 样 ， 但 组 成 数据 文件 的 记录 没有 特定 顺序 ;每 块 存放 20 个 记录 。 
c) 同 (a) 一 样 ， 但 B- 糙 为 稀 朴 索引 。 
q) 数 据 文件 是 顺序 文件 ， 且 B - 树 是 稀 琉 索引 ， 但 数据 文件 的 每 个 基本 块 有 一 个 溢出 块 。 平 均 来 讲 ， 基 本 
块 是 满 的 ， 而 溢出 抉 只 半 满 。 不 过 ， 记 录 在 基本 块 和 溢出 抉 中 没有 特定 的 顺序 。 
le) B - 树 的 叶 结 点 中 不 放 指向 数据 记录 的 指针 ， 而 是 保存 记录 本 身 。 每 块 可 存放 10 个 记录 ， 但 平均 每 个 
叶 结 点 的 充满 度 为 70% ， 即 每 个 叶 结 点 存 人 7 个 记录 。 
习题 3. 2. 2 ”假设 查询 是 范围 查询 且 匹配 的 记录 有 200 个 ， 在 这 种 情况 下 ， 重 做 习题 3. 2. 1。 
习题 3. 2. 3 假定 指针 占 4 字 节 ， 而 键 占 20 字 节 ， 大 小 为 16 384 字 节 的 块 可 存放 多 少 个 键 和 指针 ? 
习题 3.2.4 B- 树 中 (i) 内 结 点 和 (和 H) 叶 结 点 的 键 和 指针 的 最 小 数 自在 下 列 情况 下 分 别 是 多 少 ? 
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a)n=11; 即 每 块 可 存放 11 个 键 和 12 个 指针 。 
b)n=12; 即 每 块 可 存放 12 个 键 和 13 个 指针 。 
习题 3. 2. 5 在 图 3-13 中 执行 下 操作 ， 描 述 那些 引起 树 改变 的 操作 所 带 来 的 变化 。 

a) 查 找 键 值 为 40 的 记录 。 
b) 查找 键 值 为 41 的 记录 。 
c) 查 找 键 值 小 于 30 的 所 有 记录 。 
d) 查找 键 值 大 于 30 的 所 有 记录 。 
e) 查 找 键 值 在 20 和 30 之 间 的 所 有 记录 。 
f) 插 入 键 值 为 1 的 记录 。 
B) 删除 键 值 为 23 的 记录 。 
h) 插入 键 值 从 14 到 16 的 所 有 记录 。 
让) 删除 键 值 大 于 等 于 23 的 所 有 记录 。 

! 习题 3.2.6 在 例 3.17 中 我 们 提出 ， 如 果 我 们 使 用 更 复杂 的 维护 内 部 结 点 键 的 算法 ， 那 么 可 以 从 右 (或 左 ) 
边 的 非 兄弟 结 点 中 借 键 。 描 述 一 个 合适 的 算法 ， 它 可 以 通过 从 同 层 相 邻 结 点 中 借 键 来 重新 达到 平衡 ， 而 
不 管 这 些 相 邻 结 点 是 否 是 键 - 指针 对 太 多 或 太 少 的 结 点 的 兄弟 结 点 。 

! 习题 3 2. 7 如 果 我 们 使 用 这 一 节 例 子 中 的 3 个 键 4 个 指针 的 结 点 ， 当 数据 文件 中 记录 数 如 下 时 分 别 有 多 少 
不 同 的 B - 树 : a)6; b)10; We)15, 

! 习题 3. 2. 8 ”假定 我 们 的 B - 树 结 点 可 存放 3 个 键 和 4 个 指针 ， 如 同 这 节 的 例子 一 样 。 再 假定 当 我 们 分 裂 叶 
结 点 时 ， 我 们 把 指针 分 成 2 和 2， 而 当 分 裂 内 部 结 点 时 ， 前 3 个 指针 到 第 1 个 ( 左 ) 结 点 ， 后 两 个 指针 到 第 
2 个 ( 右 ) 结 点 。 我 们 从 指向 键 分 别 为 1、2 和 3 的 记录 的 指针 所 在 叶 结 点 开始 ， 然 后 我 们 按 序 加 入 键 值 为 
4、5、6…… 的 记录 。 在 插入 哪个 键 时 B - 树 将 第 一 次 达到 4 层 ? 

习题 3. 2. 9 当 在 B- 树 中 允许 重复 键 值 时 ， 我 们 在 这 一 节 描 述 的 查找 、 揪 和 信和 删除 的 算法 都 要 做 一 些 必要 

的 修改 。 给 下 列 情况 做 所 需 进行 的 修改 : a) 查 找 ; b) 插 入 ; c) 删 除 。 


3.3 BUR 


有 许多 涉及 散 列 表 的 数据 结构 可 用 作 索 引 。 我 们 假定 读者 知道 作为 主 存 数 据 结构 的 散 列 表 。 
FEE PATA BHA, CUBR BNE) 为 参数 并 计算 出 一 个 介 于 0 到 互 -1 的 整 
数 ， 其 中 B 是 桶 的 数目 。 桶 数组 ， 即 一 个 序号 从 0 到 召 -1 的 数组 ， 其 中 包含 瑟 个 链表 的 头 ， 每 
一 个 对 应 于 数组 中 的 一 个 桶 。 如 果 记 录 的 查找 键 为 K， 那 么 我 们 通过 将 该 记录 链接 到 桶 号 为 
ACK) 的 桶 表 中 来 存储 它 。 


3.3.1 辅 存 散 列表 

有 的 散 列表 包含 大 量 记 录 ， 记 录 如 此 之 多 ， 以 至 于 它们 主要 存放 在 辅助 存储 器 上 ， 这 样 的 散 
列表 在 一 些 细小 而 重要 的 方面 与 主 存 中 的 散 列 表 存 在 区 别 。 首 先 ， 桶 数组 由 存储 块 组 成 而 不 是 
由 指向 链表 头 的 指针 组 成 。 通 过 散 列 函数 户 散 列 到 某 个 桶 中 的 记录 被 放 到 
该 桶 的 存储 块 中 。 如 果 桶 中 有 太 多 的 记录 ， 那 么 可 以 给 该 桶 加 溢出 块 的 链 
以 存放 更 多 的 记录 。 

我 们 将 假定 ， 只 要 给 一 个 i, 桶 i 的 第 一 个 存储 块 的 位 置 就 可 以 被 找 
到 。 例 如 ， 主 存 中 可 以 有 一 个 指向 存储 块 的 指针 数组 ， 数 组 项 以 桶 号 为 序 
号 。 男 一 种 可 能 是 把 每 个 桶 第 一 个 存储 块 存放 到 磁盘 上 某 固定 的 、 连 续 的 
位 置 ， 这 样 我 们 就 可 以 根据 整数 i 计算 出 桶 i 的 位 置 。 

例 3.19 图 3-20 所 示 为 一 个 散 列表 。 为 了 使 我 们 的 图 解 易于 管理 , 我 3 
们 假定 每 个 存储 块 只 能 存放 2 个 记录 ， 且 互 =4， 即 散 列 函数 疡 的 返回 值 介 
于 0 和 3 之 间 。 我 们 列 出 了 一 些 位 于 散 列 表 中 的 记录 。 在 图 3-20 中 , 键 值 3-20 BAIR 
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为 字母 a 到 f。 我 们 假定 h(d) =0, h(e) =h(e) =1, h(b) =2 H hla) =h) =3。 因 此 ， 这 六 个 
记录 在 块 中 的 分 布 如 图 所 示 。 口 

注意 ， 图 3-20 中 所 示 每 个 存储 块 的 右 端 都 有 一 个 小 方块 ， 这 个 小 方块 表示 存储 块 块头 中 附 
加 的 信息 。 我 们 将 用 它 来 链接 溢出 块 ， 并 且 从 3. 3.5 节 开 始 ， 我 们 将 用 它 来 保留 存储 块 的 其 他 重 
要 信息 。 





散 列 函数 的 选择 

散 列 函数 对 键 的 “ 散 列 ”应 使 得 到 的 整数 类 似 于 键 的 一 个 随机 函数 。 因 此 ， 和 名 个 桶 常常 能 
分 到 相同 数量 的 记录 ， 正 如 我 们 将 在 3.3.4 节 中 讨论 的 那样 ， 这 能 改进 访问 一 个 记录 的 平均 
时 间 。 另 外 ， 散 列 函 数 应 该 容易 计算 ， 因 为 我 们 要 多 次 计算 它 。 

当 键 为 整数 时 ， 散 列 函 数 的 一 种 常见 选择 是 计算 K/B 的 余数 ， 其 中 天 是 键 值 ， 召 是 桶 的 
HH. BH, 为 一 个 素数 ， 尽 管 正如 我 们 将 从 3.3.5 节 开 始 讨论 的 那样 ， 将 召 选 为 2 HR 
也 有 其 理由 。 当 键 为 字符 串 ， 我们 可 以 把 每 个 字符 看 作 一 个 整数 来 处 理 ， 把 它们 累加 起 来 ， 
并 将 总 和 除 以 了， 然后 取 其 余数 。 











3.3.2 散 列表 的 插入 

当 一 个 查找 键 为 的 新 记录 需要 被 插入 时 ， 我 们 计算 h(K) 。 如 果 桶 号 为 (KK) 的 桶 还 有 空 
间 ， 我 们 就 把 该 记录 存放 到 此 桶 的 存储 块 中 或 在 其 存储 块 没有 空间 时 存储 到 块 链 上 的 某 个 游 出 
块 中 。 如 果 桶 的 所 有 存储 块 都 没有 空间 ， 我 们 就 增加 一 个 新 的 溢出 块 到 该 桶 的 链 上 ， 并 把 新 记录 
存 人 该 块 。 

例 3.20 ”假若 我 们 给 图 3-20 的 散 列表 增加 一 个 键 ? 
值 为 g 的 记录 ， 并 且 h(g) =1。 那 么 ,我们 必须 把 记录 
加 到 桶 号 为 1 的 桶 中 。 可 是 ， 该 桶 的 块 中 已 经 有 两 个 记 
录 。 因 此 ， 我 们 增加 一 个 新 块 ， 并 把 它 链 到 桶 1 的 第 一 
块 上 。 键 值 为 g 的 记录 插入 到 这 一 块 中 ， 如 图 3-21 
所 示 。 口 


3.3.3 ” 散 列 表 的 删除 
删除 查找 键 值 为 K 的 记录 与 插入 操作 的 方式 相同 。 图 3-21 为 散 列表 的 桶 增加 另外 的 一 块 
我 们 找到 桶 号 为 h(K) 的 桶 且 从 中 搜索 查找 键 为 K 的 记录 ， 继 而 将 找到 的 记录 删除 。 如 果 我 们 可 

以 将 记录 在 块 中 移动 ， 那 么 删除 记录 后 ,我 们 可 选择 合并 同一 链 上 
的 存储 块 e。 ° 
$3.21 图 3-22 所 示 为 从 图 3-21 的 散 列表 中 删除 键 值 为 c 的 记 
录 后 的 结果 。 由 前 面 可 知 h(c) =1， 因 而 我 们 到 桶 号 为 1 的 桶 ( 即 第 
二 个 桶 ) 中 去 查看 它 的 所 有 块 ， 以 找 出 键 值 为 的 一 条 记录 (或 所 有 
记录 ， 当 查找 键 不 是 主键 时 ) 。 我 们 在 权 1 的 链表 的 第 一 个 存储 块 中 
找到 了 该 记录 。 既 然 现 在 有 可 用 空间 ， 我 们 可 以 把 键 值 为 & 的 记录 
从 链表 的 第 二 个 存储 块 移 到 第 一 个 存储 块 ， 并 删除 第 二 个 存储 块 。 
我 们 还 显示 了 删除 键 值 为 a 的 记录 。 对 于 这 一 键 值 ， 我 们 找到 图 3-22 散 列 表 的 删除 结果 














晶 ” 合 并 一 条 链 上 的 块 随时 都 要 冒 风险 ， 这 是 指 当 振 动 发 生 时 ， 即 当 我 们 往 一 个 彬 里 交替 地 插入 或 删除 记录 时 ， 可 
能 每 一 步 都 会 导致 块 的 创建 或 删除 。 
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桶 3， 删除 该 记录 ， 并 把 剩 下 的 记录 移 到 块 的 前 部 以 使 之 紧凑 。 口 


3.3.4 MARRS MRE 

理想 情况 是 有 足够 的 桶 ， 绝 大 多 数 桶 都 只 由 单个 块 组 成 。 如 果 这 样 ， 那 么 一 般 的 查询 只 需 一 
次 磁盘 IO， 且 文件 的 插入 和 删除 也 只 需 两 次 磁盘 IO。 这样 的 结果 比 直 接 用 稀 朴 索引 、 笛 密 索 
引 或 B - 树 好 得 多 (尽管 散 列 表 不 能 像 B - 树 那样 支持 范围 查询 ; 参见 3.2.4 节 )。 

但 是 ， 如 果 文 件 不 断 增长 ， 那 么 最 终 就 会 出 现 一 般 的 桶 的 链表 中 都 有 许多 块 的 情况 。 如 果 这 
样 ， 我 们 就 需要 在 块 的 长 链表 中 查找 ， 每 个 块 至 少 需要 一 次 磁盘 IO。 因 此 ， 我 们 就 必须 设法 减 
少 每 个 桶 的 块 数 。 

SIAR AIL, 我 们 学 过 的 散 列 表 都 称 为 静态 散 列 表 ， 因 为 桶 的 数目 B 从 不 改变 。 但 是 ， 散 
列表 中 还 有 几 种 动态 散 列 表 ， 它们 允许 B 改变 ,使 B 近似 于 记录 总 数 除 以 块 中 能 容纳 的 记录 数 
所 得 到 的 商 ; 也 就 是 说 ， 每 个 桶 大 约 有 一 个 存储 块 。 我 们 将 讨论 两 种 这 样 的 方法 : 

1. 3.3.5 节 的 可 扩展 散 列 。 

2. 3.3.7 节 的 线性 散 列 。 

第 一 种 方法 是 在 认为 B 太 小 时 即将 其 加 倍 ， 而 第 二 种 方法 是 每 当 文件 的 统计 数字 表明 BE 
要 增加 时 即 给 B 加 1。 


3.3.5 可 扩展 散 列 表 

我 们 的 第 一 种 动态 散 列 方法 称 为 可 扩展 散 列表 。 它 在 简单 的 静态 散 列表 结构 上 主要 增加 了 : 

1. 为 桶 引 人 了 一 个 间接 层 ， 即 用 一 个 指向 块 的 指针 数组 来 表示 桶 ， 而 不 是 用 数据 块 本 身 组 
成 的 数组 来 表示 桶 。 

2. 指针 数组 能 增长 ， 它 的 长 度 总 是 2 的 蹇 ， 因 而 数组 每 增长 一 次 ， 桶 的 数目 就 翻 倍 。 

3. 不 过 ， 并 非 每 个 桶 都 有 一 个 数据 块 ; 如 果 某 些 桶 中 的 所 有 记录 可 以 放 在 一 个 块 中 ， 那 么 ， 
这 些 桶 可 能 共享 一 个 块 。 

4. BON RR h 为 每 个 键 计算 出 一 个 天 位 二 进 制 序列 ， 该 玉 足 够 大 ， 比 如 32。 但 是 ， 桶 的 数 
目 总 是 使 用 从 序列 第 一 位 或 最 后 一 位 算 起 的 若干 位 ， 此 位 数 小 于 久 ， 比 如 说 是 i 位 。 也 就 是 说 ， 
当 i 是 使 用 的 位 数 时 ， 桶 数组 将 有 2 个 项 。 

例 3.22 图 3-23 所 示 为 一 个 小 的 可 扩展 散 列 表 。 为 简单 起 见 ， 我 们 假定 天 =4， 即 散 列 函数 
h 只 产生 4 位 二 进 制 序列 。 当 前 使 用 的 只 有 其 中 一 位 ， 正 如 桶 数组 上 方 的 框 中 i=1 所 标明 的 那 
样 。 因 此 ， 桶 数组 只 有 两 个 项 ， 一 个 对 应 0， 一 个 对 应 1。 

桶 数组 中 的 项 指向 两 个 块 。 第 一 块 存放 当前 所 有 查找 键 被 散 列 成 以 0 开头 的 二 进 制 序列 的 记 
录 ; 第 二 个 块 存放 所 有 查找 键 被 散 列 成 以 1 开头 的 二 进 制 序列 的 记录 。 为 方便 起 见 ， 我 们 显示 的 
记录 键 是 散 列 函数 将 这 些 键 转换 成 的 二 进 制 位 序列 。 因 此 ， 第 
一 块 有 一 个 键 被 散 列 为 0001 的 记录 ; 而 第 二 个 块 存放 着 键 分 
别 散 列 为 1001 和 1100 的 记录 。 口 

我 们 应 该 注意 到 图 3-23 中 每 个 存储 块 的 “小 方块 ”中 都 出 
现 了 数字 1。 这 个 数字 其 实 出 现在 每 个 存储 块 的 块头 中 ， 表 明 
由 散 列 函数 得 到 的 位 序列 中 有 多 少 位 用 于 确定 记录 在 该 块 中 的 
成 员 资格 。 在 例 3. 22 的 情况 下 ， 只 用 一 个 二 进 制 位 来 确定 所 
有 的 块 和 记录 。 但 正如 我 们 将 要 看 到 的 那样 ， 随 着 散 列 表 的 增 图 3-23 可 扩展 散 列表 
长 ， 不 同 块 中 需要 考虑 的 位 数 可 能 不 同 。 也 就 是 说 ， 桶 数组 的 大 小 由 我 们 当前 正在 使 用 的 最 大 二 
进 制 位 数 来 决定 ， 但 有 些 块 可 能 使 用 较 少 的 位 数 。 
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3.3.6 可 扩展 散 列表 的 插入 

可 扩展 散 列 的 揪 人 开始 时 类 似 静 态 散 列 表 的 插 人 。 为 了 揪 和 人 键 值 为 玉 的 记录 ， 我 们 计算 出 
h(K)， 取 出 这 一 二 进 制 位 序列 的 前 i 位 ， 并 找到 桶 数组 中 序号 为 i 位 的 项 。 注 意 ， 因 为 i 作为 数 
据 结构 的 一 部 分 保存 ， 我 们 能 确定 io 

我 们 根据 桶 数组 中 该 项 的 指针 找到 某 个 存储 块 B。 如 果 B 中 还 有 存放 新 记录 的 空间 ， 我 们 就 
把 新 记录 存 人 ， 而 插入 也 就 完成 了 。 如 果 B 中 没有 空间 ， 那 么 视 数 字 j 的 不 同 有 两 种 可 能 ， 数 字 
7 表明 散 列 值 中 有 多 少 位 用 于 确定 存储 块 B 的 成 员 资 格 ( 回忆 一 下 , j 的 值 可 在 图 中 每 个 存储 块 的 
“小 方块 ”中 找到 )。 

1. 如 果 j<i， 那 么 不 必 对 桶 数组 做 什么 变化 。 我 们 : 

a) 将 块 分裂 成 两 个 存储 块 。 . 

b) 根 据 记 录 散 列 值 的 第 (j+1) 位 ,将 B 中 记录 分 配 到 这 两 个 存储 块 中 ， 该 位 为 0 的 记录 保留 
EB 中， 而 该 位 为 1 的 记录 则 放 入 到 新 块 中 。 

c) 把 (j+1) 存 人 这 两 个 存储 块 的 小 方块 中 ， 以 表明 用 于 确定 成 员 资格 的 二 进 制 位 数 。 

d) 调 整 桶 数组 中 的 指针 ， 使 原来 指向 块 B 的 项 指向 块 或 新 块 ， 这 由 项 的 第 (j+1) 位 决定 。 

TER, DBR B 可 能 解决 不 了 问题 ， 因 为 有 可 能 块 B 中 所 有 记录 将 分 配 到 由 B 分 裂 成 的 两 
个 存储 块 中 的 一 个 中 去 。 如 果 这 样 ， 我 们 需要 对 仍然 太 满 的 块 用 下 一 个 更 大 的 j 值 重复 上 述 
过 程 。 

2. 如 果 j=i， 那 么 我 们 必须 先 将 i 加 1。 我 们 使 桶 数组 长 度 翻 了 一 信 ， 因 此 数组 中 现在 有 
2 ”个 项 。 假 定 w 是 以 前 的 桶 数组 中 作为 某 项 序号 的 i 位 二 进 制 位 序列 。 在 新 桶 数组 中 ， 序 号 为 
w0 和 w1( 即 分 别 用 0 和 1 扩展 w 所 得 到 的 数 ) 的 项 都 指向 原 w 项 指向 的 块 。 也 就 是 说 ， 这 两 个 新 
项 共享 同一 个 存储 块 ， 而 存储 块 本 身 没有 变化 。 该 块 的 成 员 资格 仍然 按 原先 的 位 数 确 定 。 最 后 ， 
我 们 继续 像 第 一 种 情况 中 那样 分 裂 B。 由 于 i 现在 大 于 jy， 所 以 满足 第 一 种 情况 。 

例 3.23 假如 我 们 在 图 3-23 的 表 中 插入 一 个 键 值 散 列 为 1010 序列 的 记录 。 因 为 第 一 位 是 
1， 所 以 该 记录 属于 第 二 个 块 。 然 而 ， 该 块 已 满 ， 因 此 需要 分 裂 。 这 时 我 们 发 现 j =i=1， 因 此 我 
们 首先 需要 将 桶 数组 加 倍 ， 如 图 3-24 所 示 。 图 中 我 们 已 将 i 设 为 2。 

注意 ， 以 0 开头 的 两 个 项 都 指向 存放 键 值 散 列 序列 以 0 开头 的 记录 的 那个 存储 块 ， 且 该 存储 
块 的 “小 方块 "中 数字 仍然 为 1， 这 表明 该 块 的 成 员 资格 只 由 位 序列 的 第 一 位 确定 。 但 是 ， 位 序列 
以 1 开头 的 记录 存储 块 需要 分 裂 ， 因 此 我 们 把 这 一 块 中 的 记录 分 到 以 10 开头 和 11 开头 的 两 个 存 
储 块 中 。 在 这 两 个 存储 块 的 小 方块 中 的 数字 是 2， 表 示 成 员 资格 用 位 序列 的 前 两 位 来 确定 。 幸 
好 ， 分 裂 是 成 功 的 ; 既然 两 个 新 块 都 至 少 有 一 个 记录 ， 我 们 就 不 用 进行 递归 分 裂 。 

现在 ， 假 定 我 们 来 插入 键 值 分 别 列 为 0000 和 0111 的 记录 。 这 两 个 记录 都 属于 图 3-24 中 第 一 
个 存储 块 ， 于 是 该 块 溢出 。 因 为 该 块 中 只 用 一 位 来 确定 
其 成 员 资 格 ， 而 i =2， 所 以 我 们 就 不 用 调整 桶 数组 。 我 
们 只 需 分 裂 该 块 ， 让 0000 和 0001 留 在 该 块 ， 而 将 0111 
存放 到 新 块 中 ， 桶 数组 中 01 项 改 为 指向 新 块 。 这 一 次 我 
们 又 很 幸运 ， 所 有 记录 没有 全 分 配 到 一 个 块 中 ， 所 以 我 
们 不 必 递 归 地 分 裂 。 

假若 现在 要 插 人 一 个 键 值 为 1000 的 记录 。 对 应 10 的 
块 溢出 。 由 于 它 已 经 使 用 两 位 来 确定 其 成 员 资 格 ， 这 时 
需要 再 次 分 裂 桶 数组 ， 并 且 把 i 设 为 3。 图 3-25 给 出 了 这 
时 的 数据 结构 。 注 意 ， 图 中 对 应 10 的 块 被 分 裂 成 100 的 图 3-24 使 用 两 位 散 列 函数 值 的 散 列表 
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块 和 101 的 块 ， 而 其 他 块 仍 只 使 用 两 位 来 确定 成 员 资格 。 口 


3. 3.7 ”线性 散 列表 

可 扩展 散 列表 有 一 些 重要 的 好 处 。 最 大 的 好 处 在 于 ， 当 查找 一 个 记录 时 ， 我 们 总 是 只 需要 查 
找 一 个 数据 块 。 我 们 还 需要 查找 到 一 个 桶 数组 的 项 ， 但 
如 果 桶 数组 小 到 可 以 存放 在 主 存 中 ,那么 访问 桶 数组 就 
不 需要 进行 磁盘 V0。 然 而 ,可 扩展 散 列表 也 有 一 些 
BLA: 

1. 当 桶 数组 需要 翻 倍 时 ， 要 做 大 量 的 工作 ( 当 i 很 
大 时 ) 。 这 些 工作 会 阻碍 对 数据 文件 的 访问 ， 或 是 使 某 
些 插 人 看 来 花费 很 长 的 时 间 。 

2、 当 桶 数 翻 售后 ， 它 在 主 存 中 可 能 就 装 不 下 了 ， 或 
者 把 其 他 的 一 些 我 们 需要 保存 在 主 存 的 数据 挤 出 去 。 其 
结果 是 ， 一 个 运行 良好 的 系统 可 能 突然 之 间 每 个 操作 所 
需 磁盘 VO 开始 大 增 。 

3. 如 果 每 块 的 记录 数 很 少 ,那么 很 有 可 能 某 一 块 的 
分 裂 比 在 逻辑 上 讲 沉 要 分 裂 的 时 间 提 前 许多 。 例如， 如 
果 像 我 们 使 用 的 例子 中 一 样 ， 块 中 可 存放 2 个 记录 ， 即 
使 记录 的 总 数 远 小 于 2*， 也 有 可 能 出 现 三 个 记录 的 前 20 _ 
位 二 进 制 位 序列 一 样 。 在 这 种 情况 下 ， 我 们 将 不 得 不 使 图 325 使 用 三 位 一 进 制 序列 的 散 列 表 
用 i=20 和 100 万 个 桶 数组 项 ， 尽 管 存 有 记录 的 块 数 远 小 于 100 F. 

另 一 种 称 为 线性 散 列 的 策略 ， 桶 的 增长 较为 缓慢 。 我 们 会 看 到 在 线性 散 列 中 主要 的 新 训 
点 为 : 

。 桶 数 n 的 选择 总 是 使 存储 块 的 平均 记录 数 保持 与 存储 块 所 能 容纳 的 记录 总 数 成 一 个 固定 

的 比例 ， 如 80% 。 
。 由 于 存储 块 并 不 总 是 可 以 分 裂 ， 所 以 允许 有 溢出 块 ， 尽 管 每 个 桶 的 平均 溢出 块 数 远 小 
于 1。 

。 用 来 作 桶 数组 项 序号 的 二 进 制 位 数 是 [log,n]， 其 中 是 当前 的 桶 数 。 这 些 位 总 是 从 散 列 

函数 得 到 的 位 序列 的 右 (低位 ) 端 开始 取 。 

。 假定 散 列 函 数值 的 i 位 正在 用 来 给 桶 数组 项 编号 ， 且 有 一 个 键 值 为 K 的 记录 想 要 插入 到 

编号 为 a.a,…a; 的 桶 中 ; B aaa, 是 h(K) 的 后 i 位 。 那么， 把 a1a,…a; 当 作 二 进 制 整 
数 ， 设 它 为 m。 如 果 m <n， 那 么 编号 为 m 的 桶 存在 并 把 记录 存 人 该 桶 中 。 如 果 n<m <27， 
那么 严 桶 还 不 存在 ， 因 此 我 们 把 记录 存 人 桶 mm -2-: ， 也 就 是 当 我 们 把 a ( 它 肯 定 是 1) 改 
为 0 时 对 应 的 桶 。 

例 3.24 图 3-26 所 示 为 一 个 n=2 的 线性 散 列 表 。 我 们 目前 只 用 散 列 值 的 一 位 来 确定 记录 所 
属 的 桶 。 按 照例 3. 22 建立 的 模式 ， 我 们 假定 散 列 函数 产生 4 位 ， 并 且 用 将 散 列 函 数 作用 到 记录 
的 查找 键 上 所 产生 的 值 来 表示 记录 。 

我 们 在 图 3-26 中 看 到 两 个 桶 ， 每 个 桶 包含 一 个 存储 块 ， 桶 的 
编号 为 0 和 1。 所 有 散 列 值 以 0 结尾 的 记录 存 人 第 一 个 桶 ， 而 所 
有 散 列 值 以 1 结尾 的 记录 存 和 人 第 二 个 桶 。 

”参数 i( 当前 被 使 用 的 散 列 函 数值 的 位 数 ) 、n( 当前 的 桶 数 ) 
和 r( 当前 散 列表 中 的 记录 总 数 ) 也 是 这 一 结构 的 一 部 分 。 比 率 r/n “图 3-26 线性 散 列 表 
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将 受到 限制 ， 使 一 般 的 桶 都 只 需要 约 一 个 磁盘 存储 块 。 在 选择 桶 数 m 时 ， 我 们 采用 的 策略 是 使 数 
据 文件 中 记录 的 个 数 不 超 过 1. 7n, rsl 7n。 也 就 是 说 ， 由 于 每 个 存储 块 存放 2 个 记录 ， 桶 的 
平均 充满 程度 不 会 超过 存储 块 容量 的 85% 。 口 


3. 3.8 线性 散 列表 的 插入 

当 我 们 插入 一 个 新 记录 时 ， 我 们 通过 在 3.3.7 节 提 出 的 算法 来 确定 它 所 属 的 桶 。 我 们 计算 
h(K)， 其 中 KK 是 记录 的 键 ， 我们 使 用 h(K) 序 列 末 尾 的 i 位 表示 桶 号 m。 如 果 m <n， 我 们 把 记录 
FAM mH, WR m 宇 xn， 则 把 记录 存 人 桶 m -2” 中。 如 果 桶 中 没有 空间 ， 那 么 我 们 创建 一 个 
洲 出 块 ， 并 把 它 链 到 那个 桶 上 ， 并 且 记 录 就 存 人 该 溢出 块 中 。 

每 次 插入 ， 我 们 都 用 当前 的 记录 总 数 /n ERNIE rn 相 比 ， 若 当前 的 比例 太 大 ， 我 们 就 
增加 下 一 个 桶 到 线性 散 列 表 中 。 注 意 ， 新 增加 的 桶 和 发 生 插 入 的 桶 之 间 没 有 任何 联系 ! 如 果 我 们 
新 加 入 的 桶 号 的 二 进 制 表示 为 1a,4a,…a;， 那 么 我 们 就 分 裂 桶 号 为 04,a,…a; 的 桶 中 的 记录 ， 根 据 
记录 的 后 i 位 值 分 别 存 人 这 两 个 桶 。 注 意 ， 这 些 记 录 的 散 列 值 都 以 a,a,…a 结尾 ， 并 且 只 有 从 右 
数 起 的 第 i 位 不 同 。 

最 后 一 个 重要 的 细节 是 当 n 超 过 2 时 的 情况 。 这 时 ,i 的 值 加 1。 从 技术 上 来 讲 ， 所 有 桶 的 
桶 号 都 要 在 它们 的 位 序列 前 面 增 添 一 个 0, 但 由 于 这 些 位 序列 被 解释 成 整数 ， 因 而 就 不 需要 作 任 
何 物 理 上 的 变化 ， 还 是 保持 原样 。 

例 3.25 我 们 继续 例 3.24， 考 虑 插入 键 值 散 列 为 0101 的 记录 时 的 情况 。 因 为 位 序列 以 1 结 
尾 ， 记 录 属 于 图 3-26 中 的 第 二 个 桶 。 桶 中 有 空间 ， 因 而 不 用 创建 溢出 块 。 

但 是 ， 由 于 现在 有 四 个 记录 在 两 个 桶 中 ， 超 过 了 1.7 这 一 比率 ， 因 此 我 们 必须 把 ”提高 到 3。 
因为 | log3 | =2， 我 们 应 该 开始 考虑 把 桶 0 和 1 改 成 桶 OO 和 01 ， 但 不 需要 对 数据 结构 作 任何 改 
变 。 我 们 增加 下 一 个 桶 到 散 列表 中 ， 该 桶 编号 为 10， 接 着 ， 我 们 分 裂 桶 00， 桶 00 的 序号 只 有 第 
一 位 与 新 加 的 桶 不 同 。 在 分 裂 桶 时 ， 键 散 列 为 0000 的 记录 保留 在 00 桶 ， 因 为 它 以 00 结尾 ; 而 
键 散 列 为 1010 的 记录 存 人 桶 10 ， 因 为 它 以 10 结尾 ， 所 产生 的 散 列表 如 图 3-27 所 示 。 

下 面 假 定 我 们 增加 一 个 键 值 散 列 为 0001 的 记录 。 记 录 最 后 两 位 为 01， 且 01 桶 目前 存在 ， 我 
们 把 记录 存 人 该 桶 。 不 巧 的 是 ,该 桶 的 块 已 经 装 满 ， 所 以 我 们 增加 一 个 溢出 块 。 这 三 个 记录 被 分 
配 在 这 个 桶 的 两 个 块 中 ; 我 们 选择 按 它们 散 列 键 的 数值 顺序 来 保存 它们 ， 但 这 个 顺序 并 不 重要 。 
由 于 该 散 列表 中 记录 与 桶 的 比率 为 5/3， 小 于 1.7， 故 我 们 不 需 创建 新 桶 。 所 产生 的 散 列表 如 图 
3-28 所 示 。 





图 3-27 增加 第 三 个 桶 图 3-28 ”必要 时 使 用 溢出 块 


最 后 ， 考 虑 插入 键 值 散 列 为 0111 的 记录 。 该 记录 最 后 两 位 为 11 ， 但 桶 11 还 不 存在 ， 因 此 我 
们 把 记录 改 为 存 人 桶 01， 该 桶 号 只 是 在 第 一 位 上 与 桶 11 不 同 ， 不 是 1 而 是 0。 新 记录 存 人 到 该 
桶 的 溢出 块 中 。 

但 是 ， 该 散 列表 的 记录 与 桶 的 比率 已 超过 1.7， 因 此 ， 我 们 必须 创建 一 个 编号 为 11 的 新 桶 ， 
该 桶 碰巧 是 新 记录 所 需 的 桶 。 我 们 分 裂 桶 01 中 的 4 个 记录 ， 散 列 值 为 0001 和 0101 的 记录 保留 


BI# IAM 71 


在 桶 01， 而 散 列 值 为 0111 和 1111 的 记录 存 人 新 桶 。 因 为 桶 01 现在 只 有 两 个 记录 ， 我们 可 以 删 
除 其 溢出 块 。 现 在 ， 散 列表 如 图 3-29 所 示 。 
注意 ， 当 下 次 我 们 插入 记录 到 图 3-29 中 时 ， 我 们 将 会 使 记录 
与 桶 的 比率 超过 1.7。 那 时 ， 我们 将 把 n 提 到 5， FFA AES. 
口 
线性 散 列表 的 查询 依照 我 们 所 描述 的 选择 插入 记录 所 属 桶 的 
过 程 。 如 果 我 们 希望 查找 的 记录 不 在 该 桶 中 ， 那 么 别 的 地 方 也 不 
会 有 所 需 记 录 。 


3.3.9 JÆ 
习题 3. 3. 1 我 们 没有 讨论 在 线性 散 列 表 或 可 扩展 散 列 表 中 删除 操作 如 图 3-29 ”增加 第 四 个 桶 
何 实现 。 定 位 被 删除 记录 的 机 制 应 该 是 显而易见 的 。 你 认为 应 用 什么 方式 实行 删除 操作 ? 特别 地 ， 如 果 
删除 后 表 变 小 ， 允 许 压 缩 某 些 块 ， 那 么 重 构 散 列表 有 什么 优 缺 点 ? 
习题 3. 3. 2 ”这 部 分 的 内 容 假定 索引 键 是 唯一 的 。 不 过 ， 只 需 对 这 些 技术 稍微 做 些 修改 就 可 用 来 处 理 有 重复 
值 的 查找 键 。 描 述 删除 、 查 询 和 插入 算法 需 做 的 修改 ， 并 说 明 当 重复 值 出 现在 下 列 结构 中 时 带 来 的 主要 
问题 : a) 简单 散 列表 ; b) 线 性 散 列表 ; c) 可 扩展 散 列 表 。 
习题 3. 3. 3 ”假若 在 图 3-20 的 散 列 表 中 发 生 下 列 插入 和 删除 ， 请 说 明 将 产生 什么 情况 : 
i 记录 g 到 记录 j 分别 插入 桶 0 到 桶 3。 
ii, 记录 a 和 2 被 删除 
iii, 记录 上 到 n 分 别 插入 桶 0 到 桶 3 
iv. 记录 c M d 被 删除 

习题 3. 3. 4 ”在 每 个 存储 块 可 存放 n 条 记录 的 可 扩展 散 列 表 中 ， 何 时 会 出 现 需 要 递归 处 理 游 出 块 的 情况 ， 即 
块 中 的 所 有 记录 对 应 到 分 裂 所 产生 的 两 个 块 中 的 同一 块 。 

习题 3. 3. 5 ”假定 键 散 列 为 4 位 序列 ， 就 像 这 一 部 分 中 可 扩展 散 列表 和 线性 散 列表 的 例子 一 样 。 但 是 ,假定 
块 中 可 存放 三 个 记录 而 非 两 个 记录 。 如 果 开 始 时 散 列 表 中 有 了 两 个 空 存储 块 (对 应 于 0 和 1)， 请 给 出 插入 键 
值 如 下 的 记录 后 的 结构 : 
a)1111，1110，……- 0000， 且 散 列 方法 是 可 扩展 散 列 
b)1111, 1110, +++ 0000， 且 散 列 方法 是 线性 散 列 HARE BED 75%. 
c)0000 0001, =+ 1111， 且 散 列 方法 是 可 扩展 散 列 。 
d)0000, 0001, ------ 1111， 且 散 列 方法 是 线性 散 列 ， 其 充满 度 阔 值 为 100% 。 

习题 3. 3. 6 ”假定 我 们 使 用 可 扩展 散 列 表 或 线性 散 列 表 模 式 ， 但 是 有 指向 记录 的 外 部 指针 。 这 些 指针 防 碍 了 
记录 在 块 之 间 的 移动 ， 而 这 些 散 列 模式 中 有 时 需要 如 此 。 提 出 几 种 能 修改 结构 的 方法 ， 从 而 允许 这 些 外 
部 指针 。 

1 习题 3. 3. 7 实际 中 有 些 散 列 枉 数 并 不 像 理 论 上 那样 好 。 假 定 我 们 在 整数 键 值 ;上 定义 一 个 散 列 函数 h(i) = 
Pmod B， 其 中 B 表示 桶 数 。 

a) 如 果 B=10， 该 散 列 函数 会 出 现 什么 问题 ? 
b) 如 果 B =16， 该 散 列 函数 又 有 什么 好 处 ? 
c) 该 散 列 函 数 对 哪些 BBA A? 

1!! 习题 3. 3. 8 ”线性 散 列 模式 中 使 用 一 个 国 值 常量 “， 使 当前 桶 的 数目 m” 和 当前 记录 总 数 " 之 间 有 r= chn HX 
A, 其 中 是 每 块 可 容纳 的 记录 数 。 例 如 ， 在 例 3. 24 中 ， 我 们 使 用 上 =2 和 ec =0.85， 因 而 每 个 桶 的 记录 
数 为 1.7， 即 R=1.7n。 

a) 为 了 方便 起 见 ， 假 定 每 个 键 恰好 能 按 预期 的 次 数 出 现 。 作 为 c<、k 和 nn 的 函数 ， 包 含 游 出 块 在 内 ， 这 





.— 





O ”该 假定 并 不 意味 着 所 有 存储 块 都 有 数量 相等 的 记录 ， 因 为 有 些 桶 所 代表 的 键 是 其 他 桶 的 两 倍 。 
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种 结构 需要 多 少 个 存储 块 ? 
b) 键 一 般 都 不 会 平均 分 布 ， 而 给 定 键 (或 键 后 缀 ) 的 记录 一 般 满足 泊 松 分 布 。 也 就 是 说 ， 如 果 入 是 给 定 键 
后 缀 所 期 望 的 记录 数 ， 那 么 实际 记录 数 为 i 的， 其 概率 是 e“A'/i!l。 在 这 种 假定 下 ,作为 c<、k 和 n 的 函 
数 ， 期 望 使 用 的 块 数 是 多 少 ? 
1 习题 3. 3. 9 ”假定 我 们 有 一 个 1 000 000 条 记录 的 文件 ， 且 我 们 想 把 它 散 列 到 一 个 有 2000 个 桶 的 散 列 表 中 。 
每 个 存储 块 可 存放 100 个 记录 ， 并 且 我 们 希望 块 尽 可 能 满 ， 但 不 允许 两 个 桶 共享 一 个 块 。 存 储 这 一 散 列表 
所 需 的 最 多 和 最 少 的 存储 块 数 各 是 多 少 ? 


3.4 ”多维 索引 


到 目前 为 止 ， 我 们 讨论 的 所 有 索引 都 是 一 维 的 。 也 就 是 说 : 它们 使 用 单个 查找 键 ， 并 且 按 给 
定 的 查找 键 值 来 检索 记录 。 虽 然 查找 键 也 可 以 同时 包含 多 个 属性 ， 但 是 它 作 为 一 维 索 引 的 本 质 
并 没有 改变 。 比 如 了 B - 树 ， 必 须 提供 查找 键 上 所 有 属性 的 值 才 能 有 效 地 查找 ， 否 则 这 个 索引 就 发 
挥 不 了 作用 。 在 本 章 的 前 面 几 节 中 ， 我 们 利用 一 维 键 空间 的 方式 有 以 下 儿 种 : 
。 顺序 文件 上 的 索引 和 B - 树 都 利用 了 使 所 有 键 具 有 单一 、 有 序 的 顺序 这 一 点 。 
。 散 列 表 要 求 查找 的 查找 键 值 是 完全 知道 的 。 如 果 查 找 键 由 几 个 字段 组 成 ， 那 么 即使 只 有 
一 个 字段 不 知道 ， 我 们 也 无 法 运用 散 列 函 数 ， 而 必须 查找 所 有 的 桶 。 


3. 4.1 多 维 索引 的 应 用 ] 

许多 应 用 要 求 我 们 将 数据 视 为 存在 于 二 维 或 
更 高 维 的 空间 中 。 这 样 的 应 用 中 有 -一些 能 被 传统 
的 DBMS 系统 支持 ,但 也 有 一 些 专 为 多 维 应 用 设 
计 的 系统 。 这 些 专用 系统 的 不 同 之 处 的 一 个 方面 
在 于 它们 使 用 一 些 支持 在 普通 SQL 应 用 中 不 党 
见 的 某 些 种 类 的 查询 的 数据 结构 。 

多 维 索 引 的 一 个 重要 应 用 是 对 地 理 数据 的 处 
理 。 地 理 信息 系统 (CIS) 用 一 个 (通常 是 ) 二 维 的 
空间 存储 对 象 ， 对 象 可 能 是 点 或 形状 。 通 常 ， 这 
些 数据 库 是 地 图 ， 其 中 存储 的 对 象 可 能 表示 房 
子 、 路 、 桥 、 管 道 或 其 他 物理 对 象 。 图 330 所 0 
示 就 是 这 样 的 一 幅 地 图 。 

Ait, 地理 信息 系统 也 还 有 许多 其 他 用 途 。 图 3-30 二 维 空间 中 的 对 象 
例如 ， 一 个 集成 电路 设计 通常 是 由 称 为 “图 层 " 的 特定 材料 的 一 维 区 域 ( 常 为 矩形 ) 图 。 同 样 ， 我 
们 可 以 把 屏幕 上 的 窗口 和 图 标 看 成 是 二 维 空间 中 的 对 象 集合 。 

地 理 信息 系统 的 查询 并 不 是 一 般 的 SQL 查询 ， 尽 管 通过 一 些 努力 许多 查询 可 以 表达 成 SQL 
的 形式 。 这 类 查询 例子 如 下 ; 

1. 部 分 匹配 查询 。 我 们 指定 一 维 或 多 维 上 的 值 并 查找 在 这 些 维 上 匹配 这 些 值 的 所 有 点 。 

2. 范围 查询 。 我 们 给 出 一 维 或 多 维 上 的 范围 并 查找 在 这 些 范围 内 点 的 集合 ， 或 者 在 所 表示 
的 是 形状 时 ， 查 找 出 部 分 或 全 部 形状 在 该 范围 内 的 形状 的 集合 。 这 些 查询 推广 了 我 们 在 3.2.4 节 
所 讨论 的 一 维 范围 查询 。 

3, 最 近邻 查询 。 我 们 查找 与 给 定点 最 近 的 点 。 例 如 ， 如 果 点 表示 城市 ， 我 们 可 能 想 找到 一 
个 与 给 定 的 小 城市 最 近 且 和 人口 超 过 100 000 的 城市 。 

4. where-am-I 查询 。 已 知 一 个 点 ， 我 们 想 知 道 该 点 所 处 的 形状 ， 若 存在 这 样 的 形状 的 话 。 一 
个 熟悉 的 例子 是 当 你 点 击 鼠 标 时 ， 系 统 决定 你 点 击 的 是 哪个 显示 元 素 。 
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3.4.2 利用 传统 索引 执行 范围 查询 

现在 ， 让 我 们 来 考虑 一 维 索引 能 在 多 大 程度 上 帮助 回答 范围 查询 。 为 了 简单 实现 ， 假 定 有 两 
维 ，x 和 y。 我 们 可 以 给 x 和 7 这 两 维 中 的 每 一 维 都 建立 一 个 辅助 索引 。 为 每 一 维 都 建立 B - 树 将 
会 使 获得 每 一 维 值 的 范围 变 得 特别 容易 。 

给 定 两 维 的 范围 ， 首 先 我 们 通过 x 的 B - 树 索引 得 到 在 * 范围 内 的 所 有 记录 的 指针 。 然 后 ， 
我 们 通过 y 的 B- 树 索引 得 到 在 y 范围 内 的 所 有 记录 的 指针 。 最 后 ， 我 们 利用 3. 1.7 节 的 思想 求 
出 这 些 指针 的 交集 。 如 果 主 存 能 存放 下 这 些 指针 ， 那 么 磁盘 IO 的 总 数 是 每 个 B - 树 中 需要 被 检 
查 的 叶 结 点 的 数目 加 上 沿 着 B - 树 查找 的 少量 IO 操作 ( 见 3.2.7 节 )。 在 此 基础 上 ， 我 们 必须 加 
上 检索 所 有 匹配 记录 所 需 的 磁盘 IO， 不 论 它们 是 多 少 。 

例 3. 26 让 我 们 考虑 一 个 由 1 000 000 个 点 构成 的 假想 点 集 ， 它 们 随机 分 布 在 一 个 * 坐标 和 
y 坐标 的 范围 都 从 0 到 1000 的 空间 中 。 假 定 每 个 存储 块 可 存放 100 个 点 ，B - 树 的 每 个 时 结 点 大 
约 有 200 个 键 - 指针 对 (回想 一 下 ， 并 非 在 任何 时 候 B - 树 块 的 每 个 槽 都 必须 占 满 ) 。 我 们 将 假定 
在 x 和 y 上 都 建 有 B - 树 索 引 。 

设想 我 们 有 一 个 范围 查询 ， 要 求 找 出 该 空间 中 心 边 长 为 100 的 正方 形 所 包含 的 点 ， 即 450 三 
~<550 H 450<y<550. HJH x 的 B - 树 索引 ， 我 们 可 以 找到 x 值 在 该 范围 内 的 所 有 记录 的 指针 ， 
KAA 100 000 个 指针 ， 这 个 数量 的 指针 应 该 可 以 在 主 存 中 存放 下 来 。 类 似 地 ， 我 们 利用 y 的 
B - 树 索引 得 到 在 y 值 在 该 范围 内 的 所 有 记录 的 指针 ， 这 大 约 也 有 100 000 个 。 这 两 个 指针 集 的 
交集 大 约 有 10 000 个 指针 ， 而 通过 这 10 000 个 指针 找到 的 记录 就 构成 了 我 们 的 答案 。 

现在 ， 让 我 们 来 估计 回答 这 个 查询 所 需要 的 磁盘 LO 数量 。 首 先 ， 正 如 我 们 在 3.2.7 节 中 提 
出 的 那样 ， 把 B -~ 树 的 根 保 存在 主 存 是 可 行 的 。3.2.4 节 中 ， 我 们 介绍 了 访问 每 一 维 的 100 000 
个 指针 时 ， 我 们 需要 做 的 是 检查 一 个 中 间 层 结 点 和 所 有 包含 所 需 指 针 的 叶 结 点 。 因 为 我 们 假定 
叶 结 点 包含 约 200 个 键 - 指针 对 ， 所 以 对 每 个 B - 树 我 们 需要 查看 约 500 个 叶 结 点 块 。 当 我 们 再 
加 上 每 个 B - 树 的 一 个 中 间 结 点 时 ， 我 们 需要 的 磁盘 YO 总 数 为 1002。 

最 后 ， 我 们 需 检 索 包 含 这 10 000 个 所 需 记 录 的 块 。 如 果 它 们 随机 存放 ， 我 们 必须 预计 它们 
将 会 在 10 000 个 不 同 的 块 中 。 由 于 每 一 个 块 存放 100 MER, BH 100 万 条 记录 的 文件 假定 被 存 
储 在 10 000 个 块 中 ， 我 们 基本 上 需要 查看 数据 文件 的 每 个 块 。 这 样 ， 至 少 在 这 个 例子 中 ， 传 统 
的 索引 在 回答 范围 查询 方面 如 果 说 有 帮助 也 是 很 少 。 当 然 ， 如 果 范 围 很 小 ， 则 两 个 指针 集 的 交集 
的 构造 将 使 得 我 们 把 查找 限制 在 数据 文件 块 的 一 小 部 分 中 。 口 


3. 4.3 利用 传统 索引 执行 最 近邻 查询 


几乎 我 们 使 用 的 任何 数据 结构 都 允许 我 们 来 回答 最 近邻 查询 : 在 每 一 个 维 上 选 定 一 个 范围 ; 
执行 范围 查询 ; 并 且 选 择 该 范围 内 离 目 标 最 近 的 点 。 不 巧 
的 是 ， 下 面 两 件 事情 可 能 出 问题 : 
1. 所 选 定 的 范围 内 没有 点 。 
2. 范围 内 最 近 的 点 可 能 不 是 总 的 来 说 最 近 的 点 ， 如 图 
3-31 所 示 。 近 的 点 
回答 最 近邻 查询 的 一 般 方法 是 先 估计 可 能 出 现 最 近 点 
的 范围 ， 执 行 相 应 的 范围 查询 。 如 果 在 该 范围 内 找 不 到 任 
何 点 ,我们 就 扩大 查询 范围 ， 直 到 找到 至 少 一 个 点 为 止 。 s uer 
然后 考虑 在 我 们 选 定 的 范围 之 外 ， 是 不 是 有 更 邻近 的 点 存 W331 范围 内 存在 点 ， 但 可 能 在 
在 ， 如 图 3-31 的 情形 。 如 果 存 在 ， 我 们 再 一 次 扩大 查询 范 范围 外 存在 着 更 近 的 点 
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围 ， 获 取 该 范围 内 的 所 有 点 ， 再 次 检验 。 


3. 4.4 多 维 索引 结构 综述 

大 多 数 支持 多 维 数据 查询 的 数据 结构 归于 以 下 两 类 之 一 : 

1. 类 散 列 表 方 法 。 

2. 类 树 方法 。 

对 于 这 些 结构 中 的 每 一 种 ， 我 们 放弃 一 维 结构 的 一 些 特性 。 对 于 基于 散 列 的 方法 (3.5 节 中 
的 网 格 文件 和 分 段 散 列 函 数 ) ， 查 询 答案 就 在 一 个 桶 中 这 一 优势 不 再 存在 。 不 过 ， 这 类 方法 中 的 
每 一 种 都 把 我 们 的 搜索 限制 到 桶 的 子 集中 。 对 于 基于 树 的 方法 ， 我 们 至 少 放弃 B - 树 的 下 列 重 要 
特征 之 一 : 

1. 树 的 平衡 ， 那 里 所 有 叶 结 点 位 于 同一 层 。 

2. 树 结 点 和 磁盘 块 的 对 应 。 

3. 数据 修改 执行 的 速度 。 

正如 我 们 将 在 3. 6 节 看 到 的 那样 ， 树 经 常 是 一 部 分 比 另 一 部 分 深 ; 通常 深 的 部 分 对 应 于 点 多 
的 区 域 。 我 们 也 将 看 到 通常 一 个 树 结 点 所 表示 的 信息 远 小 于 一 个 块 所 能 存放 的 信息 ， 因 此 有 必 
要 以 某 种 有 用 的 方式 来 把 结 点 分 组 存 到 块 中 。 


3.5 多 维 数据 的 散 列 结构 


在 这 一 节 中 ， 我 们 将 考虑 由 使 用 单 键 建立 的 散 列表 推广 得 到 的 两 种 数据 结构 。 在 每 种 情况 
下 ， 点 所 属 的 桶 是 所 有 属性 或 维 的 函数 。 一 种 方法 称 为 “网 格 文件 ” ， 它 通常 不 是 按 维 来 “ 散 列 ” 
值 ， 而 是 通过 排序 该 维 的 值 来 划分 该 维 ， 另 一 种 方法 称 为 “分 段 散 列 ”， 它 确实 “ 散 列 "各 维 ， 且 
每 一 维 都 影响 桶 号 。 


3.5.1 网 格 文件 

在 涉及 多 维 数据 的 查询 中 ,通常 比 单 维 索引 性 能 要 好 的 最 简单 的 数据 结构 之 一 是 网 格 文件 
(grid file) 。 想 一 想 划 分 成 网 格 的 点 空间 。 在 每 一 维 上 网 格 线 把 空间 分 成 条 状 (strip) ， 落 在 网 格 
线 上 的 点 被 认为 是 属于 该 网 格 线 为 其 低 边 界 的 条 。 不 同 维 的 网 格 线 的 数目 可 以 不 同 ， 并 且 相 邻 
网 格 线 之 间 可 有 不 同 的 区 间 长 度 ， 甚 至 在 同一 维 的 线 之 间 也 可 有 不 同 的 区 间 长 度 。 

例 3. 27 让 我 们 引入 一 个 多 维 索 引 的 例子 : 问 “ 谁 买 金 首饰 ?” 我 们 设想 一 个 买 金 首饰 的 顾 
客 数据 库 ， 为 了 使 问题 简化 ， 我 们 假定 相关 的 属性 只 有 顾客 的 年 龄 和 薪水 。 我 们 的 示例 数据 库 中 
有 12 个 顾客 。 我 们 可 以 把 它 表 示 成 下 列 的 年 龄 - 薪水 对 : 

(25, 60) (45, 60) (50, 75) (50, 100) 

(50, 120) (70, 110) (85, 140) (30, 260) 

(25, 400) (45, 350) (50, 275) (60, 260) 

在 图 3-32 中 我 们 看 到 这 12 个 点 位 于 一 个 二 维 空间 中 。 我 们 还 在 每 一 维 上 都 选择 了 一 些 网 格 
线 。 对 这 个 简单 例子 ,我们 在 每 一 维 选择 了 两 根 网 格 线 ， 把 空间 分 成 了 九 个 矩形 ,但 在 每 一 维 上 
选用 同样 数目 的 网 格 线 并 没有 什么 理由 。 一 般 来 说 ， 一 个 矩 形 包括 落 在 其 左边 界 和 下 边界 上 的 
点 ,但 不 包括 落 在 其 右边 界 和 上 边界 上 的 点 。 例 如 ,图 3-32 中 央 的 和 矩形 表示 的 点 的 范围 是 40<< 
age( 年 龄 ) <55 FI 90 <salary( Bik) <255。 口 


3.5.2 网 格 文件 的 查找 
空间 划分 成 的 每 一 个 区 域 可 以 被 看 成 是 散 列表 的 一 个 桶 ， 落 入 该 区 域 的 每 个 点 的 记录 都 存 
放 在 属于 该 桶 的 块 中 。 如 有 必要 ,溢出 块 可 以 用 来 增加 桶 的 大 小 。 
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与 传统 散 列 表 中 使 用 的 一 维 桶 数组 不 同 ， 网 格 文件 使 用 的 桶 数组 的 维 数 与 数据 文件 的 维 数 
一 样 。 为 了 正确 定位 一 个 点 所 属 的 桶 ， 我 们 需要 知道 每 一 维 网 格 线 的 位 置 的 值 。 因 此 ， 散 列 一 个 
点 与 在 它 的 各 个 分 量 值 上 运用 散 列 函数 多 少 有 些 不 同 。 更 确切 地 说 ， 我 们 关注 点 的 每 一 个 分 量 
并 且 确 定 该 维 上 点 在 网 格 中 的 位 置 。 点 在 每 一 维 的 位 置 一 起 决定 点 所 属 的 桶 。 

例 3.28 图 3-33 所 示 为 图 3-32 中 的 数据 在 桶 中 的 存放 情况 。 由 于 在 两 维 上 网 格 都 把 空间 分 
成 了 三 个 区 域 ， 所 以 桶 数 是 一 个 3 x3 的 矩阵 。 其 中 以 下 两 个 桶 是 空 的 ， 且 我 们 没有 画 出 那 两 个 
桶 的 块 。 其 他 的 桶 全 被 画 出 ， 且 人 为 地 使 每 个 桶 的 最 大 容量 小 到 每 个 存储 块 最 多 容纳 两 个 点 。 











在 这 个 例子 中 ， 没 有 桶 超过 两 个 成 员 ， 因 而 不 需要 溢出 块 。 口 
0-40 40-55 55+ 
2ase |S | 二 一 
90-225 | | | N 
"oso | | N | 
500K r 
e | 25, 400 
'@ 
薪水 | 
Set. 25, 60 
225K| S S | | 
。 45, 60 
90K }------- oot -| 
0 oOo 
40 55 100 
年 上 
图 3-32 ”网 格 文件 图 3-33 ”表示 图 3-32 中 点 的 网 格 文件 


1. 薪水 在 $90K 和 $225K 之 间 且 年 龄 在 0 到 40 之 间 。 
2. 薪水 低 于 $90K 且 年 龄 超过 55. 


3.5.3 网 格 文件 的 播 入 

当 我 们 往 网 格 文件 中 播 和 一 个 记录 时 ， 我 们 遵循 查找 记录 的 过 程 并 把 新 记录 放 到 查找 到 的 
桶 中 。 如 果 在 该 桶 中 的 块 有 空间 ， 那 就 不 需要 做 更 多 的 事 。 如 果 在 桶 中 没有 空间 ， 那 问题 就 出 来 
了 。 通 常 有 两 种 方法 解决 这 个 问题 : 

1. 按 需 要 给 桶 增加 溢出 块 。 

2. 通过 增加 或 移动 网 格 线 来 重组 结构 。 这 种 方法 类 似 于 3.3 节 讨 论 的 动态 散 列 技术 ,但 这 
里 还 有 别 的 问题 ， 因 为 在 一 个 维 上 桶 的 内 容 是 相互 关联 的 。 也 就 是 说 ， 增 加 一 条 网 格 线 将 分 裂 沿 
该 线 的 所 有 桶 。 因 此 ， 要 选择 一 条 对 所 有 桶 都 最 优 的 网 格 线 也 许 是 不 可 能 的 。 例 如 ， 要 是 一 个 桶 
太 大 ， 我 们 也 许 不 知 是 该 选择 对 维 分 裂 还 是 对 点 分 裂 ， 并 且 不 会 造成 许多 的 空 桶 或 使 某 些 桶 
太 满 。 
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访问 网 格 文件 中 的 桶 

尽管 在 一 个 像 图 3-33 所 示 的 3x3 的 网 格 中 找 一 个 点 的 坐标 很 容易 ， 但 我 们 应 该 记 住 网 
格 文件 在 每 一 维 上 的 条 的 数目 都 可 能 非常 大 。 如 果 那 样 的 话 ， 则 我 们 必须 为 每 一 维 建立 一 个 
索引 。 索 引 的 搜索 码 是 该 维 分 割 值 的 集合 。 

在 某 坐 标 中 给 定 一 个 值 "， 我 们 搜索 小 于 或 等 于 " 值 的 最 大 码 值 w。 在 该 索引 中 与 w 相关 
RARE Po BPE NTR, ERR PBR, ANREP Ra E AE E 
桶 的 指针 。 然 后 我 们 就 可 以 依据 指针 直接 去 检索 该 桶 。 

在 极端 的 情况 下 ， 算 阵 是 如 此 之 大 ， 以 至 于 大 多 数 的 桶 是 空 的 而 我 们 不 能 去 存储 所 有 的 
空 桶 。 于 是 我 们 必须 把 矩阵 看 成 一 个 关系 ， 它 的 属性 是 非 空 桶 的 四 角 以 及 最 后 有 一 个 指向 桶 
的 指针 。 在 这 个 关系 中 查找 本 身 是 一 个 多 维 检索 ， 但 它 的 大 小 比 数据 文件 自身 要 小 。 


例 3. 29 假若 有 一 个 52 岁 且 收 入 为 $200K 的 人 买 了 金 首饰 。 该 顾客 属于 图 3-32 中 央 的 矩 
形 。 可 是 ,现在 该 桶 有 3 个 记录 。 我 们 可 以 简单 地 为 该 桶 增加 一 个 游 出 块 。 如 果 我 们 想 分 裂 该 
桶 ， 那 我 们 需要 选择 年 龄 维 或 者 薪水 维 ， 且 我 们 需要 选择 一 个 新 网 格 线 来 进行 划分 。 这 里 引入 网 
格 线 对 中 央 桶 进行 分 裂 并 使 两 个 点 在 一 边 而 一 个 点 在 另外 一 边 的 方法 只 有 以 下 三 种 ， 这 是 在 这 
种 情况 下 最 可 行 的 分 裂 。 

1. 一 条 垂直 线 ， 比 如 age =51， 它 把 两 个 50 岁 的 顾客 记录 同 52 岁 的 分 隔 开 来 。 这 条 线 对 上 、 
下 桶 的 分 裂 没 有 什么 影响 ， 因 为 上 、 下 两 个 桶 中 的 两 个 点 都 在 线 age = 51 的 左边 。 

2. 一 条 水 平 线 ， 它 把 中 央 桶 中 salary = 200 的 点 同 其 他 两 个 点 分 隔 开 来 ， 我 们 也 可 以 选择 像 
130 这 样 的 数字 ， 它 也 分 裂 右 边 的 桶 (年 龄 在 55 ~ 100 且 薪 水 在 90 ~ 225 的 桶 ) 。 

3. 一 条 水 平 线 ， 它 把 salary = 100 的 点 同 其 他 两 个 点 分 隔 开 来 ， 这 次 我 们 建议 选择 像 115 这 
样 的 数字 ， 它 也 同样 分 裂 其 右边 的 桶 。 

选择 (1) 可 能 不 太 明 智 ， 因 为 除了 不 得 不 分 裂 的 500K 
桶 ， 它 没有 分 裂 其 他 桶 ， 却 给 我 们 留 下 了 更 多 的 空 
桶 ， 且 没有 减少 任何 被 占用 的 桶 的 大 小 。 选 择 (2) 或 
(3) 都 可 以 ， 虽 然 我 们 可 能 选 (2) ， 因 为 它 把 水 平 线 ” 菏 水 
放 在 salary =130， 比 (3) 更 接近 于 下 限 90 和 上 限 225 
的 中 间 值 。 划 分 桶 的 结果 如 图 3-34 所 示 。 O nK 


3.5.4 ”网 格 文件 的 性 能 

让 我 们 来 考虑 对 各 种 类 型 的 查询 网 格 文件 需要 ”ook 
多 少 磁盘 IO。 虽 然 网 格 文件 可 用 作 任 意 数目 的 维 ， 
但 我 们 一 直 以 来 只 考虑 了 二 维 的 情况 。 对 于 高 维 的 0 
情况 ,一 个 主要 的 问题 是 随 着 维 数 的 增加 ， 桶 的 数 
目 成 指数 级 增长 。 如 果 空 间 的 大 部 分 是 空 的 ， 那 将 
会 有 许多 空 桶 。 即 使 在 二 维 时 我 们 也 能 觉察 这 个 间 图 3-34 点 (52，200) 的 插入 和 其 后 桶 的 分 列 
题 。 假 若 在 年 龄 和 薪水 之 间 有 很 大 的 相关 性 ， 那 么 在 图 3-32 中 所 有 的 点 都 沿 着 对 角 线 分 布 ， 不 
论 我 们 把 网 格 线 放 在 哪里 ， 不 沿 对 角 线 的 桶 都 将 会 是 空 的 。 

不 过 ， 如 果 数 据 的 分 布 性 很 好 ， 且 数据 文件 本 身 又 不 太 大 ， 那 么 我 们 可 以 选择 网 格 线 ， 使 得 : 

L 桶 足够 少 ， 这 样 我们 能 够 将 桶 矩阵 存 人 主 存 中 ， 查 阅 桶 矩阵 或 者 当 我 们 插入 一 条 新 网 格 
线 而 给 矩阵 增加 一 行 或 一 列 时 ， 都 不 会 引起 磁盘 IO。 

2. 我 们 也 能 够 在 主 存 中 保存 每 一 维 上 网 格 线 的 值 的 索引 (请 看 “访问 网 格 文件 中 的 桶 ” 框 ) ， 
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或 者 我 们 能 够 根本 避免 索引 而 使 用 主 存 的 二 分 法 查找 来 查找 每 一 维 上 定义 网 格 线 的 值 。 

3. 一 般 的 桶 只 有 少量 的 溢出 块 ， 因 而 ， 当 我 们 搜索 桶 时 不 会 造成 太 多 的 磁盘 0。 
在 这 些 假 定 下 ， 下 面 是 网 格 文件 在 一 些 重要 查询 类 中 的 表现 。 

具体 点 的 查找 

我 们 直接 找到 适当 的 桶 ， 因 而 唯一 的 磁盘 LO 就 是 读 人 该 桶 所 需 的 操作 。 如 果 我 们 进行 插入 
或 删除 ， 则 还 需要 一 个 磁盘 写 操作 。 若 插入 需要 创建 溢出 块 ， 则 需 另 一 个 写 操作 。 

部 分 匹配 查询 

这 类 查询 的 例子 包括 “ 找 出 所 有 年 龄 为 50 岁 的 顾客 ”， 或 “ 找 出 所 有 薪水 为 $200K 的 顾客 ”。 
现在 ， 我 们 需要 查找 桶 矩阵 某 一 行 或 某 列 的 所 有 桶 。 如 果 在 一 行 或 列 上 有 许多 桶 ， 那 么 磁盘 YO 
的 数 可 能 很 大 ， 然 而 只 有 很 小 的 一 部 分 桶 真正 需要 被 访问 。 

范围 查询 

范围 查询 定义 网 格 的 一 个 矩形 区 域 ， 且 在 覆盖 该 区 域 的 桶 中 找到 的 所 有 点 都 是 该 查询 的 答 
案 ， 除 了 搜索 范围 边界 上 的 桶 中 的 某 些 点 外 。 例 如 ， 如 果 我 们 想 找 出 所 有 年 龄 为 23 ~453、 薪 水 
为 50 ~ 100 的 顾客 ， 那 么 我 们 需要 在 图 3-32 左下 方 的 四 个 桶 中 查找 。 在 这 个 例子 中 ， 所 有 的 桶 
都 处 于 边界 上 ， 因 此 我 们 可 能 查找 到 许多 不 是 查询 结果 的 点 。 不 过 ， 如 果 搜 索 区 域 包括 大 量 的 
桶 ， 那 么 大 多 数 桶 必定 是 内 部 的 ， 且 这 些 桶 的 所 有 点 都 是 查询 的 结果 。 对 于 范围 查询 来 说 ， 由 于 
我 们 需要 检查 许多 的 桶 ， 因 此 磁盘 VO 数 可 能 会 很 大 。 不 过 ， 由 于 范围 查询 一 般 得 到 一 个 大 的 结 
果 集 ， 不 论 如 何 组 织 ， 我 们 检查 的 块 数 一 般 不 会 比 我 们 的 结果 所 需 最 小 块 数目 多 很 多 。 

最 近邻 查询 

给 定 一 个 点 PP， 我 们 首先 查找 该 点 所 属 的 桶 。 如 果 我 们 至 少 找到 了 一 个 点 ， 则 我 们 对 最 近邻 
点 就 有 了 一 个 候选 点 Q。 不 过 ， 有 可 能 在 相 邻 桶 中 存在 比 8 离 己 更 近 的 点 ， 这 种 情形 就 像 图 3-31 
所 示 的 那样 。 我 们 必须 考虑 P 到 该 桶 的 边界 的 距离 是 否 小 于 P 到 0 的 距离 。 如 果 存 在 这 样 的 边 
界 ， 那 在 每 个 这 样 的 边界 的 相 邻 桶 也 必须 被 搜索 。 事 实 上 ， 如 果 桶 是 个 很 窄 的 矩形 ( 它 的 一 维 比 
另 一 维 长 很 多 ) 其 至 还 可 能 需要 搜索 与 包含 点 PP 的 桶 不 相 邻 的 桶 。 

il 3. 30 假若 我 们 在 图 3-32 中 查找 点 P= (45 ，200 ) 的 最 邻近 的 点 。 我 们 发 现 点 (50，120 ) 
是 那个 桶 中 最 近 的 点 ， 距 离 为 80.2。 下 面 三 个 桶 中 都 不 存在 比 这 更 近 的 点 ， 因 为 它们 的 薪水 最 
多 为 90， 所 以 我 们 可 以 不 去 搜索 它们 。 但 是 ， 其 他 5 个 桶 必须 被 搜索 ， 且 我 们 找到 两 个 等 距离 
的 点 : (30, 260) 和 (60，260) ,与 的 距离 为 61.8。 一 般 来 说 ， 最 近邻 查询 可 以 被 限制 到 一 小 
部 分 桶 ， 因 此 只 需 少 量 磁 盘 VO。 不 过 ， 由 于 最 靠近 P 的 桶 可 能 为 空 ， 我 们 不 可 能 轻易 给 出 查找 
所 需 开销 的 上 界 。 口 


3.5.5 PRB AM 

散 列 函数 能 够 接受 属性 值 的 一 个 列表 作为 参数 ， 虽 然 一 般 情况 下 只 有 一 个 参数 值 。 例 如 ， 如 
Roa 是 一 个 整 型 值 属性 而 45 是 一 个 字符 串 型 值 属性 ， 那 么 我 们 可 以 构造 一 个 散 列 函 数 h(a，5)， 
把 a 的 值 加 上 5 的 每 一 个 字符 的 ASsCII 码 值 再 除 以 桶 数 以 后 取 余 数 。 

不 过 ， 这 样 的 散 列 表 只 可 用 在 <、2 值 都 被 指定 的 查询 。 一 个 更 好 的 选择 是 设计 一 个 散 列 函数 ， 使 
它 产生 若干 个 三 进 制 位 ， 比 如 说 个 。 这 位 在 几 个 属性 中 进行 划分 ， 从 而 我 们 为 第 i 个 属性 产生 


位 散 列 值 ， 且 Y ky =k, 更 精确 地 说 ， 散 列 函 数 户 实 际 上 是 一 个 散 列 函 数 (及 ,已 ，…， h) 的 列表 ， 


其 中 每 个 h 运用 到 第 i 个 属性 上 且 产 生 位 二 进 制 位 序列 。 进 行 散 列 时 ， 在 这 几 个 属性 上 值 为 (ww ， 
w，…，2, ) 的 元 组 所 属 的 桶 通过 拼接 二 进 制 序列 h, (o, ) ha (v,)---h, (0, ) 计 算得 到 。 
例 3.31 如 果 我 们 有 一 个 桶 数目 为 10 位 的 散 列表 (1024 个 桶 ) ， 我 们 可 以 把 4 位 分 给 属性 a 
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而 其 他 6 位 留 给 属性 5。 假若 我 们 有 属性 a tiA ABR OA BATHA, BRERA He 
没有 参与 散 列 的 属性 。 如 果 有 hh.(4) =0101 且 h, (B) = 111000， 那 么 这 个 元 组 的 桶 号 为 
0101111000， 即 两 个 二 进 制 位 序列 的 拼接 。 

通过 采用 分 段 散 列 函数 这 种 方式 ， 我 们 可 从 任何 一 个 或 多 个 参与 散 列 的 已 知 的 属性 值 中 得 
到 一 些 人 便利。 例如， 如果 我 们 已 知 属性 a 的 值 4， 且 得 到 h, (A) =0101， 那 么 我 们 知道 包含 属性 
a 的 值 4 的 元 组 都 只 在 这 64 个 桶 中 ， 其 桶 号 形式 为 0101……… ， 这 里 …… 表 示 任 意 的 6 位 二 进 制 
数 。 类 似 地 ， 如 果 给 定 一 个 元 组 的 属性 46 的 值 B， 我们 可 以 知道 可 能 存在 该 元 组 的 桶 为 16 个 桶 ， 
其 桶 号 以 6 位 二 进 制 数 h,(B) 结 尾 。 口 

例 3.32 假定 我 们 有 例 3. 27 中 的 “ 金 首饰 ”数据 ， 我们 想 把 它 存 放 到 一 个 有 3 个 桶 的 分 段 散 
列表 中 ( 即 桶 数目 为 3 位 )。 我 们 像 以 前 一 样 假设 每 块 能 存放 两 个 记录 。 我 们 把 一 位 给 年 龄 属性 ， 
而 其 余 两 位 给 薪水 属性 。 









45, 60 | 
85, 140 


图 3-35 “分 段 列表 


对 于 年 龄 上 的 散 列 函数 ， 我 们 用 年 龄 模 2; 也 就 是 说 ， 年 龄 为 偶数 的 记录 将 散 列 到 桶 号 形式 
为 Oxy 的 桶 中 (x 和 7 为 二 进 制 位 值 ) ; 年 龄 为 奇数 的 记录 散 列 到 桶 号 形式 为 1xy WRP. MH 
水 上 的 散 列 函数 ， 用 薪水 ( 以 为 单位 ) 模 4 来 得 到 。 例 如 ， 若 薪水 为 $7K， 则 模 4 SR FAR 
1， 则 该 记录 所 属 桶 号 的 形式 为 201(z 为 二 进 制 位 值 ) 。 

在 图 3-35 中 ， 我 们 了 解 到 例 3. 27 中 数据 在 这 种 散 列 表 中 的 存放 情况 。 注 意 ， 因 为 我 们 使 用 
的 大 多 数 年 龄 和 薪水 都 可 被 10 除 尽 ， 散 列 函 数 不 能 很 好 地 分 布 这 些 点 。8 个 桶 中 有 两 个 桶 存放 
了 4 个 记录 和 且 需 要 洲 出 块 ， 而 其 他 有 三 个 桶 为 空 。 口 


3.5.6 网 格 文件 和 分 段 散 列 的 比较 

在 这 一 节 中 讨论 的 两 种 数据 结构 的 性 能 很 不 相同 ， 这 里 是 比较 的 要 点 : 

© 分 段 散 列表 对 于 最 近邻 查询 或 范围 查询 实际 上 没有 什么 用 ,问题 在 于 点 之 间 的 物理 距离 
并 没有 通过 桶 号 的 接近 反映 出 来 。 当 然 ， 我 们 可 以 在 某 属性 a 上 设计 散 列 函数 ， 从 而 使 
最 小 值 分 配给 第 一 个 位 串 ( 全 0) ， 下 一 个 值 分 配给 下 一 个 位 串 (00…01) ， 等 等 。 如 果 这 
样 做 的 话 ， 那 么 我 们 又 发 明了 一 种 网 格 文件 。 

© 选择 一 个 好 的 散 列 函数 将 把 点 随机 地 散 列 到 各 个 桶 中 ， 这 样 ， 这 些 桶 将 趋 于 被 均等 地 占 
用 。 然 而 网 格 文件 ,特别 是 当 维 数 很 大 时 ， 易 于 留 下 许多 空 桶 或 几乎 是 空 的 桶 。 其 最 直 
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观 的 原因 在 于 ， 当 有 许多 属性 时 ， 至 少 有 一 些 属性 ， 它 们 之 间 有 相关 性 是 很 可 能 的 ， 于 
是 空间 的 很 大 区 域 是 空 的。 例如 ， 我 们 在 3. 5. 4 节 提 到 的 年 龄 和 薪水 的 相关 性 将 导致 图 
3-32 中 大 多 数 点 位 于 对 角 线 附近 ， 使 大 多 数 和 矩形 为 空 。 由 于 这 个 结果 ,我们 用 分 段 散 列 
表 实现 会 比 网 格 文件 实现 使 用 更 少 的 桶 和 /或 更 少 的 溢出 块 。 
因此 ， 如 果 我 们 只 需要 支持 部 分 匹配 查询 一 一 我 们 指定 某 属 性 的 值 而 不 指定 其 他 属性 ， 那 
么 分 段 散 列 函 数 可 能 会 比 网 格 文件 好 。 相 反 ， 如 果 我 们 需要 经 常 做 最 邻近 查询 或 范围 查询 ， 那 我 
们 宁愿 选择 使 用 网 格 文件 。 


3.5.7 习题 
习题 3. 5. 1 在 图 3-36 中 是 图 2-21 13 台 PC 机 中 的 12 台 的 规格 说 明 ， 
假若 我 们 希望 只 在 速度 和 硬盘 大 小 上 设计 索引 。 
a) 选 择 5 条 网 格 线 (两 维 的 总 数 ) 以 便 使 任何 桶 中 不 超过 两 个 点 。 
!b) 如 果 只 使 用 4 条 网 格 线 ， 每 桶 至 多 有 2 个 点 ， 你 能 分 隔 这 些 点 吗 ? 
如 果 可 能 ， 则 画 出 如 何 分 隔 ; 否则 ， 解 释 为 何不 可 能 ? 
1c) 提 出 一 个 分 段 散 列 函 数 ， 它 能 划分 这 些 点 到 4 个 桶 中 且 每 桶 不 超过 
4 个 点 。 
习题 3. 5. 2 选择 一 个 分 段 散 列 函 数 ， 且 速度 、 内 存 和 硬盘 大 小 三 属性 
各 为 一 位 二 进 制 数 ， 使 它 能 很 好 地 划分 图 3-36 中 的 数据 。 
习题 3. 5. 3 ”假定 我 们 用 一 个 只 有 速度 和 内 存 的 二 维 网 格 文 件 来 存放 图 
3-36 中 的 数据 。 速 度 维 上 的 划分 为 2.00、2. 20 和 2.80， 内 存 维 上 的 
划分 为 1024 和 2048。 还 假定 每 桶 只 能 存放 两 个 点 。 如 果 插 入 速度 为 
2.5 且 内 存 为 1536 的 点 ， 试 提出 好 的 分 裂 。 图 3-36 ”一些 PC 机 和 它们 的 特性 
! 习题 3. 5.4 假定 我 们 希望 把 图 3-36 中 的 数据 放 到 一 个 基于 速度 、 内 存 
和 硬盘 大 小 属性 的 三 维 网 格 文件 中 ， 给 每 一 维 提出 一 个 划分 从 而 使 它 能 把 数据 划分 得 很 好 。 
习题 3. 5. 5 ”假若 我 们 用 网 格 文件 来 存放 关系 R(x，y) 。 两 个 属性 的 范围 都 是 从 0 到 1000 。 该 网 格 文件 的 划 
分 刚好 是 等 区 间 : 对 于 x 维 的 划分 单位 为 20， 即 20、40、60 等 ， 而 对 于 y 维 的 划分 单位 为 50， 即 50、 
100、150 等 。 
a) 为 了 回答 下 面 的 范围 查询 ， 我 们 需 检查 多 少 个 桶 ? 
SELECT * FROM R 
WHERE 330 < x AND x < 400 AND 620 < y AND y < 860; 
!b) 我 们 希望 对 点 (110，245 ) 执行 一 个 最 近邻 查询 。 我 们 开始 搜索 左下 角 为 (100，200) 、 右 上 角 为 (120， 
250) 的 桶 ， 并 且 我 们 发 现在 这 个 桶 中 最 近 点 为 (115，230) 。 为 了 证 实 该 点 是 最 近 点 ， 还 要 搜索 哪些 桶 ? 
! 习题 3. 5. 6 假定 我 们 有 一 个 桶 号 从 0 到 2” -1 的 散 列表 ， 即 桶 地 址 为 n 位 长 。 我 们 希望 把 有 两 个 属性 x 和 
y 的 关系 存放 到 这 个 表 中 。 任 何 查 询 可 指定 一 个 x 值 或 y 值 ， 但 不 能 同时 指定 。 若 x 被 指定 的 概率 为 Po 
a) 假定 我 们 划分 散 列 函数 使 m 位 给 x 维 而 其 余 n-m 位 给 y 维 。 对 于 回答 任意 一 个 查询 ,预计 需要 检查 多 
少 桶 ， 给 出 一 个 m、n Fil p 的 函数 ? 
b) 什 么 样 的 m( 作 为 n All p 的 函数 ) 值 会 使 得 预计 桶 数 最 小 ? 不 用 担心 m 可 能 不 是 整数 。 


3.6 多 维 数据 的 树 结构 


现在 ,我 们 考虑 对 于 多 维 数据 的 范围 查询 和 最 邻近 查询 都 有 用 的 另外 四 种 结构 。 我 们 将 依 
次 考虑 : 

1. 多 键 索引 。 

2. kd- $. 

3. 四 叉 树 。 








2. 
2. 
1. 
2. 
3. 
3. 
2. 
2. 
2. 
2. 
1. 
2. 
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4.R- 树 。 
前 三 种 用 于 点 集 。R - 树 通 常用 来 表示 区 域 的 集合 ， 它 也 可 用 来 表示 点 集 。 


3. 6.1 多 键 索引 

假若 我 们 有 几 个 属性 来 表示 我 们 的 数据 点 的 维 ， 并 旦 我 们 想 在 这 些 点 上 支持 范围 查询 或 最 
近邻 查询 。 用 来 访问 这 些 点 的 一 个 简单 的 树 模 式 是 索引 的 索引 ， 或 者 用 更 一 般 的 话 来 说 ， 是 一 棵 
树 ， 它 的 每 一 层 的 结 点 都 是 一 个 属性 的 索引 。 

这 种 想法 如 图 3-37 所 示 ， 这 是 两 个 属性 的 情况 ,“ 树 根 " 是 两 个 属性 中 第 一 个 属性 的 索引 ， 它 
可 以 是 任何 类 型 的 常规 索引 ， 如 B - 树 或 散 列表 。 该 索引 把 每 一 个 索引 键 值 一 一 即 第 一 个 属性 的 
值 一 盖 同 指向 另 一 个 索引 的 指针 相关 联 。 如 果 了 是 第 一 个 属性 的 一 个 值 ， 那 么 通过 键 值 Y 和 它 的 指 
针 找 到 的 索引 是 一 个 指向 这 些 点 集 的 索引 ， 这 些 点 的 第 一 个 属性 值 是 了 而 第 二 个 属性 为 任意 值 。 

例 3. 33 图 3-38 显示 了 一 个 我 们 一 直 在 用 的 “ 金 首 饰 " 例子 的 多 键 索引 ， 它 的 第 一 个 属性 为 
年 龄 ， 而 第 二 个 属性 为 薪水 。 根 索引 是 关于 年 龄 的 索引 ， 如 图 3-38 左边 所 示 。 在 图 3-38 的 右边 
是 提供 访问 点 本 身 的 7 个 索引 。 例 如 ， 如 果 我 们 根据 根 索 引 找 到 与 年 龄 为 50 相关 联 的 指针 ， 我 
们 得 到 一 个 以 薪水 为 索引 键 的 更 小 的 索引 ， 且 索引 中 的 4 个 索引 键 值 是 与 年 龄 为 50 的 点 相关 联 
的 4 个 薪水 值 75, 100, 120 #1275, 口 

在 多 键 索 引 中 ， 有 些 第 二 级 或 更 高 级 索引 可 能 会 很 小 。 例 如 ,图 3-38 有 4 个 只 有 一 个 键 - 
指针 对 的 第 二 级 索引 。 因 此 ， 把 几 个 简单 表 压 缩 到 一 个 块 中 来 实现 这 些 索引 可 能 是 合适 的 。 








第 一 个 属性 
上 的 索引 


第 二 个 属性 
上 的 索引 


图 3-37 在 不 同 键 上 使 用 柑 套 索引 图 3-38 ”对 年 龄 / 菏 水 数据 的 多 级 索引 





3.6.2 ”多 键 索引 的 性 能 

让 我 们 考虑 多 键 索引 对 于 各 种 不 同 的 多 维 查询 的 性 能 。 我 们 将 主要 考虑 两 个 属性 的 情形 ， 
虽然 推广 到 多 于 两 个 属性 并 不 使 人 感到 意外 。 

部 分 匹配 查询 

如 果 第 一 个 属性 被 指定 ， 那 访问 是 很 有 效 的 。 我 们 使 用 根 索 引 找 到 一 个 子 索引 ， 该 子 索引 引 
导 我 们 到 想 要 的 点 上 。 与 此 相反 ， 如 果 第 一 个 属性 没有 给 出 一 个 指定 值 ， 那 我 们 必须 搜索 每 一 个 
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子 索 引 ， 湾 在 地 这 是 一 个 耗 时 的 处 理 过 程 。 

范围 查询 

如 果 单 个 索引 本 身 在 它们 各 自 的 属性 上 支持 范围 查询 一 一 比如 说 ，B - 树 索 引 或 者 索引 顺序 文 
件 ， 多 键 索引 对 范围 查询 就 会 运作 得 很 好 。 为 了 回答 一 个 范围 查询 ， 我 们 使 用 根 索 引 和 第 一 个 属性 
的 范围 找 出 可 能 包含 答案 点 的 所 有 子 索引 。 然 后 我 们 使 用 第 二 个 属性 的 指定 范围 搜索 每 个 子 索引 。 

最 近邻 查询 

这 类 查询 可 以 通过 一 系列 范围 查询 来 完成 ， 如 我 们 在 3. 4. 3 节 讨论 的 那样 。 
3.6.3 kd- 

kd - 树 ( 上 维 搜索 树 ) 是 把 二 又 搜索 树 推广 到 多 维 数据 的 一 种 主 存 数据 结构 。 我 们 将 先 介绍 这 
种 思想 ， 然 后 讨论 怎样 使 这 种 思想 适合 存储 的 块 模型 。kd - 树 是 一 个 二 叉 树 ， 它 的 内 部 结 点 有 一 
个 相关 联 的 属性 c 和 一 个 值 Y， 它 将 数据 点 集 分 成 两 个 部 分 : a 值 小 于 了 的 部 分 和 a 值 大 于 等 于 
V 的 部 分 。 由 于 所 有 维 的 属性 在 层 间 交替 出 现 ， 所 以 树 的 不 同 层 上 的 属性 是 不 同 的 。 

在 一 般 的 好 - 树 中 ， 数 据点 被 存放 在 结 点 内 ， 就 像 在 二 又 搜索 树 中 一 样 。 不 过 我 们 在 开始 
引入 这 个 思想 时 做 了 两 个 修改 ， 以 便 获 得 块 模式 的 有 限 益处 : 

1. 内 部 结 点 只 有 一 个 属性 ， 该 属性 的 一 个 划分 值 和 指向 左 、 右 子 树 的 指针 。 

2. 叶 绪 点 是 块 ， 块 空间 中 存放 着 尽 可 能 多 的 记录 。 





图 3-39 kd - 树 


例 3.34 在 图 3-39 中 是 一 棵 我 们 一 直 在 用 的 金 首饰 示例 库 的 12 个 点 的 hd - 树 。 为 简单 起 
见 ， 我 们 使 用 只 能 存放 两 个 记录 的 块 。 这 些 块 和 它们 中 的 内 容 显 示 在 正方 形 的 叶 结 点 中 。 内 部 结 
点 是 有 一 个 属性 (或 是 年 龄 或 是 薪水 ) 和 一 个 值 的 椭圆 。 例 如 ， 根 用 薪水 属性 来 分 裂 : 左 子 树 中 
的 所 有 记录 的 薪水 小 于 $150K， 而 右 子 树 的 所 有 记录 的 薪水 至 少 是 $150K。 

在 第 二 层 ， 用 年 龄 属性 来 分 裂 : 根 的 左 子 树 以 年 龄 为 60 来 分 裂 ， 因 此 在 它 的 左 子 树 中 的 所 
有 记录 将 是 年 龄 小 于 60 且 薪 水 少 于 $150K,， 在 它 的 右 子 树 中 的 所 有 记录 将 是 年 龄 至 少 为 60 A 
水 少 于 $150K。 图 3-40 表明 了 各 个 内 部 结 点 是 如 何 分 裂 点 空间 到 叶 结 点 块 中 的 。 例 如 ， 薪 水 为 
150 的 水 平 线 表示 根 结 点 上 的 分 裂 。 线 下 面 的 空间 在 年 龄 为 60 处 被 垂直 分 裂 ， 而 上 面 的 空间 在 
年 龄 为 47 处 分 裂 ， 它 对 应 于 根 结 点 右 子 树 的 结果 。 口 


3.6.4 ”kd 一 树 的 操作 
查找 一 个 所 有 维 都 给 定 值 的 元 组 的 处 理 如 同 在 二 叉 树 中 一 样 。 我 们 在 每 个 内 部 结 点 上 决定 
哪个 走向 并 且 被 引 向 我 们 所 需 的 单个 时 结 点 的 块 。 
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为 了 实现 一 个 插入 ， 我 们 先 做 一 个 查找 。 最 后 我 们 找到 一 个 叶 结 点 ， 如 果 叶 结 点 的 块 中 还 有 
空间 ， 我 们 就 把 新 的 数据 点 放 在 那里 ， 如 果 没 有 空间 ， 我 们 把 块 分 裂 成 两 个 ， 并 根据 分 裂 叶 结 点 
所 在 层 的 相应 属性 划分 叶 结 点 中 的 内 容 。 最 后 ， 我 们 创建 一 个 新 的 内 部 结 点 : 它 的 子 结 点 为 分 裂 
得 到 的 两 个 新 块 ， 并 且 给 该 内 部 结 点 一 个 与 分 裂 相对 应 的 划分 值 © 。 
例 3.35 假若 某 个 年 龄 为 35 且 薪水 为 $500K 500K 
的 人 买 了 金 首 饰 。 从 根 开 始 ， 我 们 已 知 其 薪水 至 少 
是 $150K， 我 们 往 右 边 走 ， 在 该 右 结 点 处 ， 我 们 拿 
年 龄 35 眼 年 龄 47 比较 ， 它 使 我 们 往 左 边 走 ; 在 第 
3 层 上 ,我 们 再 次 比较 薪水 ， 生 我 们 的 薪水 大 于 划 
分 值 $300K。 因 此 我 们 被 引 向 包含 点 (25，400) 和 ex 
(45, 350) 的 叶 结 点 ， 新 点 (35，500) 需 插入 该 块 。 
在 该 块 中 存放 不 下 3 个 记录 ， 因 而 我 们 必须 分 
裂 该 块 。 第 4 层 是 按 年 龄 来 分 裂 ， 所 以 我 们 得 选择 
某 个 年 龄 来 尽 可 能 均匀 地 划分 这 些 记 录 。 中 间 值 35 
是 一 个 不 错 的 选择 ， 这 样 我 们 就 用 分 裂 值 为 35 的 0 
内 部 结 点 取代 该 叶 结 点 。 该 内 部 结 点 的 左边 是 只 有 
一 个 记录 (25，400) 的 叶 结 点 块 ， 而 右边 是 有 另外 
两 个 记录 的 叶 结 点 块 ， 如 图 3-41 所 示 。 口 
在 这 一 章 中 讨论 的 更 为 复杂 的 查询 也 可 以 被 好 - 树 支持 。 下 面 是 算法 的 关键 思想 和 梗概 。 
部 分 匹配 查询 
如 果 我 们 给 定 某 些 属性 的 值 ， 那 么 当 我 们 处 于 属性 值 已 知 的 层 的 结 点 上 时 ， 我 们 可 以 往 一 
个 方向 走 ; 当 我 们 处 于 属性 值 未 知 的 结 点 上 时 ， 我 们 必须 考察 它 的 两 个 子 结 点 。 例 如 ， 如 果 我 们 
要 找 出 图 3-39 的 树 中 的 所 有 年 龄 为 50 的 点 ， 我 们 必须 考察 根 的 两 个 子 结 点 ， 因 为 根 是 按 薪水 来 
分 裂 的。 可 是 ， 在 根 的 左 子 结 点 上 ， 我 们 只 需要 往 左 走 ; 在 根 的 右 子 结 点 上 ， 我 们 也 只 需 考察 它 
的 右 子 树 。 例 如 ， 假 定 树 是 完全 平衡 的 ， 索 引 有 两 维 ， 如 果 只 给 定 其 中 一 维 的 值 ， 那 我 们 将 不 得 
不 交替 使 用 这 两 种 方式 来 考察 各 层 结 点 。( 访 问 结 点 数 ) 最 终 达 到 叶 结 点 数 的 平方 根 。 











图 3-40 图 3-39 中 的 树 所 隐 含 的 划分 





图 3-41 插入 点 (35，500) 后 的 树 





O ”可 能 出 现 的 一 个 问题 是 如 下 的 情况 : 在 一 个 给 定 的 维 出 现 了 具有 相同 值 的 许多 个 点 ， 以 至 于 该 维 的 桶 中 只 有 一 
个 值 ， 无 法 进行 分 裂 。 我 们 可 以 尝试 没 另外 一 个 维 分 裂 ， 或 者 可 以 使 用 溢出 块 。 
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范围 查询 

有 时 一 个 范围 允许 我 们 移动 到 结 点 的 某 个 唯一 的 子 结 点 ， 但 如 果 范 围 跨越 了 结 点 的 划分 值 ， 
那 我 们 就 必须 考察 两 个 子 结 点 。 例 如 ， 给 定年 龄 范围 是 35 ~55 和 薪水 范围 是 $100K 至 $200K， 
我 们 考察 图 3-39 的 树 如 下 ; 在 根 结 点 ， 薪 水 范围 跨越 了 $150K， 因 此 我 们 考察 它 的 两 个 子 结 点 : 
在 左 子 结 点 ， 范 围 完全 属于 左边 ， 这 样 我 们 前 进 到 薪水 为 $80K 的 结 点 。 现 在 ,范围 又 完全 属于 
右边 ， 这 样 我 们 就 搜索 到 记录 为 (50，100 ) 和 (50，120 ) 的 叶 结 点 ， 两 个 记录 都 符合 查询 范围 ; 
回 到 根 的 右 结 点 ， 划 分 值 年 龄 为 47 告诉 我 们 查看 两 个 子 树 : 在 薪水 为 $300K HARE, RIR 
需 往 左前 进 ， 找 到 点 (30，260) ， 它 实际 上 超出 了 范围 ; 在 年 龄 为 47 的 右 结 点 ， 我 们 找到 两 个 
点 ， 它 们 都 超出 了 范围 。 


3.6.5 使 万- 树 适合 辅助 存储 器 

假定 我 们 用 一 个 有 个 叶 结 点 的 kd — 树 存 放 文件 ， 那 么 从 根 到 叶 结 点 的 路 径 的 平均 长 度 将 
大 约 是 logzn， 如 同 任何 二 叉 树 一 样 。 如 果 我 们 每 块 存放 一 个 结 点 ， 那 么 当 我 们 遍历 一 条 路 径 时 ， 
我 们 必须 为 每 个 结 点 做 一 次 磁盘 0。 例 如 ， 如 果 n=1000， 那 我 们 需要 大 约 10 KALNO, 
远 超过 通常 B ~- 树 的 2 到 3 次 磁盘 0 一 一 即使 是 一 个 十 分 大 的 文件 。 另 外 ， 由 于 kd - 树 内 部 结 
点 的 信息 相对 地 少 ， 块 的 大 部 分 空间 将 被 浪费 掉 。 下 面 的 两 种 方法 有 助 于 解决 长 路 经 和 未 用 空 
间 这 一 对 挛 生 问题 。 

1. 内 部 结 点 的 多 分 支 。kd - 树 的 内 部 结 点 里 可 以 有 多 个 键 - 指针 对 ， 它 看 起 来 更 像 B - 树 结 
点 。 如 果 我 们 在 结 点 里 有 个 键 ， 我们 能 够 把 属性 a 的 值 分 裂 成 n+1 个 范围 。 如 果 有 n+1 个 指 
针 ， 我 们 能 够 沿 着 适当 的 指针 到 只 包含 属性 a 值 在 那个 范围 内 的 点 的 子 树 。 

2. 聚集 内 部 结 点 到 块 。 我 们 可 以 把 多 个 内 部 结 点 压缩 到 一 个 块 中 。 为 了 减少 遍历 路 径 访问 的 
块 数量 ， 我 们 最 好 远离 一 个 结 点 一 个 块 的 方式 而 将 若干 层 的 所 有 子 结 点 存 人 一 个 块 。 在 这 种 方式 
下 , 一 旦 我 们 检索 到 该 结 点 的 块 ， 我 们 必定 会 使 用 该 块 中 的 其 他 某 些 结 点 ， 节 省 了 磁盘 IO。 


3.6.6 Wit 
在 一 个 四 又 树 中 ， 每 个 内 部 结 点 对 应 于 二 维 空间 中 的 一 个 正方 形 区 域 ， 或 是 维 空间 的 上 维 
立方 体 。 像 本 章 中 的 其 他 数据 结构 一 样 ， 我 们 将 主要 考虑 二 维 的 情形 。 如 果 一 个 正方 形 中 的 点 数 
不 比 一 个 块 中 能 存放 的 数 多 ， 那 么 我 们 就 把 这 个 正方 形 看 作 树 的 叶 结 点 ， 并 且 它 由 存放 它 的 点 
的 块 表示 ; 如 果 和 矩形 中 还 有 太 多 的 点 以 至 于 一 个 块 存放 不 下 ,那么 我 们 把 这 个 正方 形 看 作 内 部 
结 点 ， 它 的 子 结 点 对 应 于 它 的 4 个 象限 。 
例 3.36 图 3-42 BAT RAR RMT OX 400K 
树 结 点 区 域 的 金 首 饰 例 的 数据 点 。 为 了 计算 的 便 
Al, 我 们 限制 了 可 用 的 空间 ; 薪水 范围 在 0 到 
$400K 之 间 ， 而 不 是 像 在 本 章 中 其 他 例子 那样 达到 
$500K。 我 们 继续 假定 每 个 块 只 存放 两 个 记录 。 
图 3-43 清楚 地 显示 了 这 种 树 。 对 于 象限 和 结 点 gk 
-的 子 结 点 ， 我 们 使 用 指南 针 的 标示 法 (例如 ，SW 代 
表 西 南 象 限 一 一 在 中 心 左下 方 的 点 )。 子 结 点 的 顺 
序 总 是 如 同 在 根 结 点 所 标识 的 那样 。 每 个 内 部 结 点 
指出 该 区 域 的 中 心 坐标 。 
”由 于 整个 空间 有 12 个 点 且 一 个 块 中 只 存放 两 个 0 





100 


点 ， 我 们 必须 把 空间 分 裂 成 象限 ， 我 们 在 图 3-42 中 年 龄 
用 短 划 线 标志 。 两 个 结果 象限 西南 和 东北 一 -一 图 3-42 组织 到 四 叉 树 中 的 数据 
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只 有 两 个 点 。 它 们 可 以 用 叶 结 点 来 表示 且 不 需要 进一步 分 裂 。 口 





图 3-43 一 棵 四 叉 树 


鳃 下 的 两 个 象限 都 多 于 两 个 点 。 两 个 都 被 分 裂 成 子 象 限 ， 如 图 3-42 中 点 线 所 示 。 每 个 结果 
象限 都 有 两 个 或 更 少 的 点 ， 因 而 不 需 更 多 的 分 裂 。 口 

由 于 一 个 天 维 的 四 又 树 的 内 部 结 点 有 2 个子 结 点 ， 因 而 存在 一 个 能 把 结 点 方便 地 装 人 块 中 
的 大 的 范围 。 例 如 ， 若 一 个 块 中 能 存放 128 或 者 2 的 指针 ， 则 =7 是 一 个 合适 的 维 数 。 不 过 ， 
对 于 二 维 的 情形 ， 情 况 并 不 比 fd - 树 好 多 少 ， 一 个 内 部 结 点 有 4 个子 结 点 。 此 外 ， 我 们 能 够 为 
kd - 树 选 择 一 个 分 裂 点 ， 可 我 们 被 约束 在 四 叉 树 区 域 的 中 心 ， 它 也 许 能 也 许 不 能 把 该 区 域 的 点 均 
勾 地 划分 。 尤 其 当 维 数 很 大 时 ， 我 们 可 能 在 内 结 点 中 会 找到 许多 空 指针 (对 应 于 空 象限 ) 。 当 然 
我 们 在 高 维 结 点 如 何 表示 方面 可 以 聪明 些 ， 并 且 只 保留 非 空 指针 和 该 指针 表示 的 象限 的 标志 ， 
这 样 可 节省 相当 的 空间 。 

关于 我 们 在 3. 6. 4 节 讨 论 的 kd — 树 的 标准 操作 ， 我 们 这 里 不 再 进行 详细 的 讨论 : 四 叉 树 的 算 
法 类 似 于 kd - 树 的 算法 。 


3.6.7 R-#j 

R - 树 ( 区 域 树 ) 是 一 种 利用 B - 树 的 某 些 本 质 特征 来 处 理 多 维 数据 的 数据 结构 。 回 想 一 下 
B -~ 树 的 结 点 有 一 个 键 的 集合 ， 这 些 键 把 线 分 成 片段 ， 沿 着 那 条 线 的 每 个 点 仅 属于 一 个 片段 ， 如 
图 3-44 所 示 。B - 树 因此 使 我 们 很 容易 地 找到 点 。 如 果 我 们 把 沿线 各 处 的 点 表示 成 B - 树 结 点 ， 
我 们 就 能 够 确定 点 所 属 的 唯一 子 结 点 ， 在 那里 可 以 找到 该 点 。 

而 R- 树 表 示 由 二 维 或 更 高 维 区 域 组 成 的 数据 ， 我 们 把 它 称 为 数据 区 。R - 树 的 一 个 内 部 结 
点 对 应 于 某 个 内 部 区 域 ， 或 称 " 区 域 ” ， 它 不 是 普通 的 数据 区 。 原 则 上 ， 区 域 可 以 是 任何 形状 ， 
虽然 实际 上 它 经 常 为 矩形 或 其 他 简单 形状 。R - 树 的 结 点 的 键 位 置 上 含有 子 区 域 ， 它 表示 结 点 的 
子 结 点 的 内 容 。 人 允许 子 区 域 有 部 分 重大 ， 尽 管 我 们 希望 重 委 较 小 。 

图 3-45 显示 了 一 个 与 大 矩形 相关 联 的 R - 树 的 结 点 。 点 状 线 标 示 的 矩形 表示 与 它 的 四 个 子 
结 点 相关 联 的 子 区 域 。 注 意 ， 子 区 域 没有 覆盖 整个 区 域 ， 只 要 把 位 于 大 区 域内 的 所 有 数据 区 都 完 
全 包含 在 某 个 小 区 域 中 就 合乎 要 求 。 





一 二 一 | 一 一 二 


图 3-44 B - 树 结 点 沿线 把 键 分 成 不 相交 的 片段 图 3-45 R- 树 结 点 区 域 和 子 结 点 子 区 域 
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3.6.8 R- 树 的 操作 

对 于 “where-am-1” 这 类 典型 查询 ，R - 树 是 有 用 的 。 这 类 查询 指定 一 个 点 已 且 询 问 结 点 所 处 
于 的 数据 区 域 。 

我 们 从 根 结 点 开始 ， 它 关联 着 整个 区 域 。 我 们 检查 根 上 的 子 区 域 且 确定 根 结 点 的 哪个 子 结 
点 对 应 的 内 部 区 域 包 含 点 P。 注 意 到 可 能 有 OL 1 或 几 个 这 样 的 区 域 。 

如 果 为 0 个 区 域 ， 那 我 们 就 结束 ，P 不 存在 于 任何 数据 区 中 。 如 果 至 少 有 一 个 内 部 区 域 包 含 
点 忆 ， 那 我 们 必须 在 与 每 个 这 样 的 区 域 对 应 的 子 结 点 上 递归 查找 P。 当 我 们 查找 到 一 个 或 多 个 叶 
结 点 时 ， 我 们 将 找到 真正 的 数据 区 ， 或 者 是 每 个 数据 区 的 完整 记录 ， 或 者 是 指向 记录 的 指针 。 

当 我 们 插入 一 个 新 区 域 到 R - 树 时 ,我 们 从 根 开始 且 设 法 找到 一 个 适合 玉 的 子 区 域 。 
如 果 有 多 于 一 个 这 样 的 区 域 ， 那 我 们 就 选择 一 个 ， 进 到 它 相 应 的 子 结 点 且 在 那里 重复 这 个 过 
程 。 如 果 不 存在 包含 RR 的 子 区域 ， 那 我 们 得 扩大 其 中 一 个 子 区 域 。 究 竞选 择 哪 一 个 是 个 艰难 
的 决定 。 直 观 上 ， 我 们 希望 扩大 的 区 域 尽 可 能 小 ， 因 此 我 们 可 以 看 一 下 哪个 子 结 点 的 子 区域 
将 会 使 它们 的 面积 增加 得 尽 可 能 少 ， 改 变 该 区 域 的 边界 来 包含 六 ， 且 在 它 的 相应 子 结 点 中 递归 
地 插入 R, 

最 后 ,我们 到 达 叶 结 点 ， 在 那里 我 们 插入 区 域 R。 不 过 ， 如 果 在 该 叶 结 点 上 没有 空间 。 那 我 
们 必须 分 裂 叶 结 点 。 怎 样 分 裂 叶 结 点 受 某 些 选择 的 支配 。 通 常 我 们 希望 两 个 子 区 域 能 尽 可 能 小 ， 
不 过 在 它们 之 间 ， 它 们 必须 覆盖 原始 叶 结 点 的 所 有 数据 区 。 完 成 分 裂 后 ， 我 们 用 对 应 于 两 个 新 叶 
结 点 的 区 域 和 指针 对 替换 原来 叶 结 点 的 区 域 和 指针 。 如 果 父 结 点 中 有 空间 ， 那 我 们 就 结束 。 否 
则 ， 就 像 在 B - 树 中 一 样 ， 我们 往 上 递归 地 分 裂 结 点 。 

例 3.37 我 们 考虑 增加 一 个 新 区 域 到 图 3-30 所 示 的 地 图 中 。 假 设 叶 结 点 可 存放 6 个 区 域 。 
再 假设 图 3-30 中 的 6 个 区 域 一 起 在 一 个 叶 结 点 中 ， 该 区 域 由 图 3-46 中 的 一 个 外 部 ( 实 ) 矩形 
表示 。 





图 3-46 ”对象 集 的 分 裂 


现在 ,假设 当地 的 电话 公司 在 图 3-46 所 示 的 位 置 增加 一 个 POP( 存 在 点 ， 或 基站 )。 由 于 7 
个 数据 区 域 不 能 存放 在 一 个 叶 结 点 中 ， 我 们 要 分 裂 该 叶 结 点 ，4 个 在 一 个 叶 结 点 而 其 他 3 个 在 另 
一 个 叶 结 点 上 。 我 们 有 很 多 的 选择 。 我 们 选择 了 图 3-46 中 的 划分 (用 内 部 的 、 短 划 线 矩形 表示 ) : 
它 最 小 化 了 部 分 重 等 ， 同 时 又 尽 可 能 均匀 地 分 裂 叶 结 点 。 
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图 3-47 一 棵 R- 树 











图 3-48 ”扩大 一 个 区 域 来 容纳 新 数据 


我 们 在 图 3-47 中 显示 了 两 个 新 叶 结 点 如 何 插 入 到 R - 树 中 。 两 个 结 点 的 父 结 点 有 指针 指向 
它们 ， 且 与 指针 相关 联 的 是 每 个 叶 结 点 所 履 盖 的 矩形 区 域 的 左下 角 和 右上 角 坐 标 。 口 

例 3. 38 假设 我 们 在 房子 2 的 下 方 搬 人 另 一 座 房子 ， 其 左下 角 坐 标 为 (70，5) ， 右 上 和 角 坐 标 
为 (80，15) 。 由 于 这 座 房子 没有 被 任何 一 个 叶 结 点 的 区 域 完 全 包含 。 我 们 必须 选择 一 个 区 域 来 
扩大 。 如 果 我 们 扩大 对 应 于 图 3-47 中 下 部 的 子 区 域 ， 那 我 们 给 该 区 域 增加 了 1000 平方 单位 ， 因 
为 往 右 延伸 了 20 个 单位 ; 如 果 我 们 把 另 一 个 子 区 域 的 底 边 下 移 15 个 单位 来 扩大 该 子 区 域 ， 那 我 
们 增加 了 1200 平方 单位 。 我 们 宁可 选择 第 一 个 ， 且 新 区 域 改变 成 图 3-48 所 示 。 我 们 还 必须 把 图 
3-47 中 顶层 结 点 的 区 域 描述 从 ((0，0) ，(60，50) ) 改 变 成 ((0, 0), (80, 50)). 口 


3.6.9 习题 
习题 3. 6.1 给 图 3-36 的 数据 画 出 多 级 索引 ， 如 果 索 引 建立 在 : 
a) 内 存 ， 然 后 硬盘 ; 
b) 速度 ， 然 后 内 存 ; 
c) 速度 ， 然 后 硬盘 ， 最 后 内 存 。 
习题 3. 6. 2 ”把 图 3-36 的 数据 放 到 一 棵 hd - 树 中 。 假 定 每 块 能 存放 两 个 记录 ， 给 每 一 层 挑选 一 个 使 数据 划 
分 尽 可 能 均匀 的 划分 值 。 分 裂 属 性 的 顺序 选择 : 
a) 速度 ， 然 后 内 存 ， 再 交替 ; 
b) 速 度 ， 然 后 内 存 ， 最 后 硬盘 ， 再 交替 ; 
c) 不 论 什么 属性 ， 只 要 它 在 每 个 结 点 产生 最 均匀 的 分 裂 。 
习题 3. 6.3 ”假设 我 们 有 一 个 关系 RC(x，y，z) ， 其 属性 x My 一 起 形成 键 。 属 性 * 的 范围 是 从 1 到 100， 属 
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性 y 的 范围 是 从 1 到 1000。 对 于 每 一 个 xz， 有 50 个 y 值 不 同 的 记录 ; 对 于 每 个 y， 有 5 个 * 值 不 同 的 记录 。 
注意 只 有 5000 个 这 样 的 记录 。 我 们 希望 使 用 一 个 多 键 索引 来 帮助 我 们 回答 如 下 形式 的 查询 : 
SELECT z 
FROM R 
WHERE x = C AND y = D; 
其 中 C 和 了 为 常量 。 假 定 每 块 能 够 存放 10 个 键 - 指针 对 ， 并 且 我 们 希望 在 每 一 级 创建 稠密 索引 ， 可 能 在 
它们 之 上 有 高 层 的 稀 朴 索引 ， 因 此 每 个 索引 从 单个 块 开始 。 还 假定 最 初 所 有 的 索引 和 数据 块 都 在 磁盘 上 : 
a) 如 果 第 一 个 索引 是 建立 在 y 上 ， 回 答 上 述 形式 的 查询 需要 多 少 个 磁盘 0? 
b) 如 果 第 一 个 索引 是 建 在 x 上 ， 回 答 上 述 形式 的 查询 需要 多 少 磁盘 0? 
1c) 假设 你 一 直 被 允许 有 6 个 内 存 缓冲 块 ， 如 果 你 想 使 额外 需要 的 磁盘 IO 数 最 小 化 ， 你 将 选择 哪些 块 ? 你 
生成 + 或 y 的 第 一 个 索引 吗 ? 
习题 3. 6. 4 ”对 于 习题 3. 6. 3(a) 的 结构 ， 需 要 多 少 磁盘 IO 来 回答 20<2<35 H 200<y<350 这 个 范围 查 
询 。 假 定数 据 分 布 均匀 ， 即 对 于 任何 给 定 的 范围 ， 预 计数 量 的 点 将 会 被 找到 。 
习题 3. 6.5 在 图 3-39 的 树 中 ,什么 样 的 新 点 将 会 被 插入 到 : 
a) 点 (45，60) 和 点 (50，75 ) 所 在 的 块 ; 
b) 点 (25，400) 和 点 (45，350) 所 在 的 块 。 
习题 3. 6. 6 如 果 我 们 相继 插入 点 (20，175) 和 (40，400) ， 画 出 图 3-41 的 树 可 能 的 变化 。 

! 习题 3. 6.7 我 们 谈 到 过 如 果 fd - 树 是 完全 平衡 的 ， 并 且 我 们 执行 一 个 两 属性 中 给 定 其 中 任意 一 个 值 的 部 

分 匹配 查询 ,我 们 需 访问 个 叶 结 点 中 的 大 约 Yn 个 。 

a) 解 释 为 什么 。 

b) 如 果树 在 d 维 中 交替 地 分 裂 ， 且 我 们 指定 这 些 维 中 的 m 个 值 ， 我 们 预计 查找 的 叶 结 点 所 占 比 例 是 多 少 ? 
c) 把 (b) 的 结果 和 分 段 散 列表 进行 对 比 ? 

1 习题 3. 6. 8 ”如 果 我 们 允许 放 人 一 个 中 心 点 到 四 又 树 的 任意 象限 中 ， 我 们 总 是 能 划分 象限 为 等 数目 点 的 子 象 
限 ( 或 者 尽 可 能 相等 ， 如 果 象 限 的 点 数 不 能 被 4 整除 ) 吗 ? 证 明 你 的 答案 。 

1 习题 3. 6. 9 假设 我 们 有 一 个 1 000 000 个 区 域 的 数据 库 ， 这 些 区 域 可 能 部 分 重 倒 。R 树 的 结 点 ( 块 ) 能 够 容 
纳 100 个 区 域 和 指针 。 任 何 结 点 表示 的 区 域 有 100 个 子 区 域 ， 且 这 些 区 域 部 分 重合 情 况 是 这 样 的 : 100 个 
子 区 域 的 总 面积 是 该 区 域 面积 的 150% 。 如 果 我 们 对 一 个 给 定点 执行 “where-am-1” 查询 ， 预 计 要 检索 多 少 
个 块 ? 

习题 3. 6. 10 ”把 图 3-36 的 数据 存 人 一 个 有 速度 和 内 存 维 的 四 叉 树 中 。 假 定 速度 的 范围 是 从 1. 00 到 5.00, 
而 内 存 的 范围 是 从 500 至 3500, 
习题 3. 6. 11 加 上 硬盘 第 三 维 ， 它 的 范围 是 从 0 到 500， 重 做 习题 3. 6. 10。 


3.7 位 图 索引 


现在 让 我 们 转 到 一 种 十 分 不 同 于 我 们 前 面 所 述 的 索引 的 索引 上 来 。 我 们 先 设想 文件 的 记录 
有 一 个 永久 的 编号 : 1，2，…，n。 此 外 ,文件 存在 某 种 数据 结构 ， 它 对 于 任意 的 一 个 i 可 使 我 
们 容易 地 找到 第 i 个 记录 。 字 段 下 的 位 图 索引 是 一 个 长 度 为 n 的 位 向 量 的 集合 。 每 一 个 位 向 量 对 
应 于 字段 下 中 可 能 出 现 的 一 个 值 。 如 果 第 ;个 记录 的 字段 下 的 值 为 w。， 那 么 对 应 于 值 " 的 位 向 量 
在 位 置 了 上 的 取 值 为 1; 否则 该 向 量 的 位 置 i 上 的 取 值 为 0。 

例 3.39 假设 一 个 文件 中 的 记录 由 两 个 字段 Ff 和 G 组 成 ,分 别 为 整数 型 和 字符 串 型 。 目 前 
文件 中 有 6 个 记录 ， 编 号 为 1 到 6， 它 们 的 值 依次 如 下 : (30, foo), (30, bar), (40, baz), 
(50, foo), (40, bar), (30, baz), 

第 一 个 字段 下 的 位 图 索引 有 3 个 位 向 量 ， 每 个 长 度 为 6。 第 一 个 对 应 于 30， 是 110001 ， 因 为 
第 一 、 第 二 和 第 六 个 记录 都 是 下 =30; 另外 两 个 分 别 对 应 于 40 和 50， 是 001010 和 000100, 

字段 6 的 位 图 索引 也 有 3 个 位 向 量 ， 因 为 那儿 有 3 个 不 同 的 字符 串 出 现 。3 个 向 量 是 : 
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在 每 种 情形 下 ，1 表示 在 那个 记录 中 出 更 了 相应 的 字符 串 。 口 


3.7.1 位 图 索引 的 动机 

乍 看 起 来 ， 位 图 索引 需要 太 多 的 空间 ， 尤 其 是 当 字 段 有 许多 不 同 值 时 ， 因 为 位 的 总 数 是 记录 
和 取 值 数 的 乘积 。 例 如 ， 如 果 字段 是 键 ， 且 记录 数 为 n， 那 么 该 字段 的 所 有 位 向 量 需 使 用 w 个 二 
进 制 位 。 不 过 ， 压 缩 能 够 使 位 的 数量 接近 于 n， 而 与 不 同 字段 值 的 数量 无 关 ， 就 像 我 们 将 在 
3.7.2 节 看 到 的 那样 。 

你 也 可 能 怀疑 位 图 索引 的 管理 会 出 现 问 题 。 例 如 ， 它 们 依赖 于 自始至终 保持 同样 的 记录 数 。 
随 着 文件 增加 和 删除 记录 ， 我 们 如 何 找到 第 ;个 记录 ? 我 们 怎样 有 效 地 为 一 个 值 找到 位 图 ? 这 些 
和 其 他 相关 问题 在 3. 7. 4 节 讨 论 。 

位 图 索引 的 补偿 优势 是 它们 允许 我 们 在 许多 情形 下 高 效 地 回答 部 分 匹配 查询 。 在 某 种 意义 
上 说 ， 它 们 提供 了 我 们 在 例 3.7 中 讨论 的 桶 的 优势 。 在 那儿 ， 我 们 通过 指定 几 个 属性 值 找 到 
Movie 元 组 ， 而 无 须 先 检索 与 每 一 个 属性 匹配 的 所 有 记录 。 下 面 的 一 个 例子 将 说 明 这 一 点 : 

例 3. 40 回想 例 3.7， 我 们 用 如 下 查询 语句 查询 关系 Movie: 

SELECT title FROM Movie 

WHERE studioName = ’Disney’ AND year = 2005; 
假设 在 属性 studioName 和 year 上 建 有 位 图 索引 ， 我 们 就 能 够 对 对 应 于 year = 2005 和 studioName = 
‘Disney’ 的 两 个 位 向 量 求 交 ， 即 我 们 逐 位 求 这 些 位 向 量 的 与 ， 且 得 到 一 个 向 量 ， 该 向 量 的 位 置 i 
取 值 为 1， 当 且 仪 当 第 ;个 Movie 元 组 对 应 的 电影 是 由 Disney 于 2005 年 制作 的 。 

如 果 我 们 能 够 按 给 定 的 元 组 号 检索 Movie 元 组 ， 我 们 就 只 需要 读 包 含 一 个 或 多 个 这 样 元 组 的 
那些 块 ， 正 如 我 们 在 例 3.7 所 做 的 那样 。 为 了 对 位 向 量 求 交 ， 我们 必须 把 它们 读 进 内 存 ， 它 需要 
给 这 两 个 位 向 量 之 一 所 占据 的 每 个 块 一 个 磁盘 YO, OLR, 我 们 稍 后 将 讲述 两 个 问题 : 
3.7.4 节 介 绍 按 给 定 记录 号 访问 记录 ，3.7.2 节 证 实 位 向 量 并 不 占 太 多 的 空间 。 口 

位 图 索引 也 能 够 帮助 回答 范围 查询 。 下 面 我 们 将 考虑 一 个 例子 : 它 不 仅 阐述 了 它们 在 范围 
查询 中 的 使 用 ， 而 且 用 一 些 短 的 位 向 量 详 细 地 显示 了 位 向 量 的 逐 位 与 /或 如 何 能 够 被 用 来 找到 查 
询 的 答案 ， 它 只 查找 我 们 所 要 的 记录 而 不 会 查找 任何 其 他 记录 。 

例 3.41 先 考虑 例 3.27 的 金 首 饰 数 据 。 假 定 例子 中 的 12 个 点 是 如 下 编号 从 1 到 12 的 记录 : 

1; (25, 60) 2: (45, 60) 3: (50, 75) 4; (50, 100) 

5: (50, 120) 6: (70, 110) 7: (85, 140) 8: (30, 260) 

9: (25, 400) 10: (45, 350) 11; (50, 275) 12: (60, 260) 

对 第 一 个 分 量 年 龄 ， 它 有 7 个 不 同 值 ， 因 此 年 龄 的 位 图 索引 由 下 面 7 个 向 量 组 成 : 

25: 100000001000 30: 000000010000 45; 010000000100 

50; 001110000010 60: 000000000001 70: 000001000000 

85: 000000100000 

对 于 薪水 分 量 ， 它 有 10 个 不 同 值 ， 因 而 薪水 的 位 图 索引 有 下 面 的 10 个 向 量 : 

60: 110000000000 75 : 001000000000 100: 000100000000 

110; 000001000000 120: 000010000000 140: 000000100000 
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260: 000000010001 275: 000000000010 350; 000000000100 

400: 000000001000 

假定 我 们 要 找 出 年 龄 范围 在 45 ~ 55 且 薪 水 范围 在 100 ~ 200 的 所 有 首饰 购买 者 。 我 们 先 找 出 
在 这 个 范围 内 的 年 龄 值 向 量 : 在 这 个 例子 中 它们 是 010000000100 和 001110000010 ， 分 别 对 应 于 
年 龄 45 和 50。 如 果 我 们 取 它 们 的 按 位 或 ， 我 们 就 得 到 一 个 新 向 量 : 当 且 仅 当 第 ;个 记录 的 年 龄 
在 给 定 范围 内 时 它 的 位 置 ? 上 取 值 为 1， 且 该 向 量 为 011110000110。 

下 一 步 ， 我 们 找 出 范围 在 100K 到 200K 之 间 的 薪水 值 向 量 : 它们 有 4 个 ， 分 别 对 应 于 薪水 
100, 110, 120 和 140， 它 们 的 按 位 或 结果 是 000111100000。 

最 后 一 步 是 取 我 们 通过 “或 ”运算 得 到 的 两 个 位 向 量 的 按 位 与 ， 即 ; 


011110000110 AND 000111100000 =000110000000 
于 是 我 们 找到 只 有 第 4 和 第 5 个 记录 (50，100) 和 (50，120) 是 在 所 要 求 的 范围 内 。 口 


3.7.2 压缩 位 图 

假定 我 们 在 一 个 有 个 记录 的 文件 的 字段 上 建 有 位 图 索引 ， 且 在 文件 中 出 现 的 字段 下 的 
不 同 值 的 数目 为 m。 那 么 该 案 引 的 所 有 位 向 量 的 二 进 制 位 数 就 是 mrx。 如 果 说 块 的 大 小 为 4096 个 
字 节 ， 那 么 在 一 个 块 中 我 们 可 存放 32 768 位 ， 因 此 所 需 块 数 是 mn/32 768。 这 个 数 比 存放 文件 本 
Arte RAE), GEMME m 的 变 大 ， 位 图 索引 所 需 空间 也 就 越 多 。 

但 是 如 果 普 很 大 ， 那 么 位 向 量 中 的 1 将 会 很 少 。 精 确 地 说 ， 任 何 一 位 出 现 1 的 概率 为 1/m。 
如 果 1 很 少 ， 那 么 我 们 就 有 机 会 编码 位 向 量 以 便 它们 平均 所 占用 的 位 比 n 少 得 多 。 一 个 常用 的 方 
法 叫做 分 段 长 度 编码 ， 段 是 由 ;个 0 后 跟 一 个 1 所 组 成 的 序列 ， 通过 对 整数 i 适当 的 二 进 制 编码 
来 表示 一 个 段 。 我 们 把 每 个 段 的 代码 拼接 在 一 起 ， 则 这 个 位 序列 就 是 整个 位 向 量 的 编码 。 

我 们 可 能 会 想到 我 们 可 以 就 把 i 表达 成 二 进 制 数 来 表示 i。 不过， 如 此 简单 的 方法 是 不 行 的 ， 
因为 把 编码 序列 分 成 多 个 部 分 后 要 唯一 地 确定 各 个 段 的 长 度 是 不 可 能 的 (请 看 二进制 数 不 能 用 
作 分 段 长 度 编 码 " 框 ) 。 因 此 ， 表 示 段 长 度 的 整数 ;的 编码 一 定 比 简单 的 二 进 制 表示 更 复杂 。 


二 进 制 数 不 能 用 作 分 段 长 度 编码 
假设 我 们 用 整数 i 的 二 进 制 形式 来 表示 i 个 0 后 跟 一 个 1 的 段 ， 那 么 位 向 量 000101 由 长 
度 分 别 为 3 和 1 的 两 个 段 组 成 。 这 两 个 整数 的 二 进 制 表示 为 11 和 1， 这样 000101 的 分 段 长 度 
编码 是 111。 可 是 ， 采 用 类 仪 的 计算 ， 位 向 量 010001 也 被 编码 成 111; 而 位 向 量 010101 是 编 
码 为 111 的 第 三 个 向 量 。 因 此 ，111 不 能 够 被 唯一 地 解码 成 一 个 位 向 量 。 


我 们 将 介绍 多 种 可 选编 码 方 法 中 的 一 种 。 还 有 一 些 更 好 、 更 复杂 的 方法 能 够 按 2 的 倍数 来 提 
高 压缩 的 量 。 但 只 有 当 一 般 的 段 很 长 时 才 行 。 在 我 们 的 方法 中 ， 我 们 首先 需要 确定 i 的 二 进 制 表 
示 是 多 少 位 ， 这 个 数字 j 近似 地 等 于 log,i， 被 表示 成 “一 元 ”: j -1 个 1 和 一 个 0。 然 后 ,我 们 在 
它 后 面 加 上 i 的 二 进 制 表示 。。 . 

例 3.42 ”如果 ;=13， 那 么 ) =4。 即 我 们 需要 4 位 二 进 制 来 表示 io A, i RAAT Ra RB od 
为 1110。 我 们 把 i 的 二 进 制 数 1101 加 上 ， 这 样 ，13 的 编码 就 是 11101101 。 

i=1 的 编码 是 01， 而 i=0 的 编码 是 00。 在 这 两 种 情况 下 ,j=1， 因 此 我 们 以 一 个 0 开始 且 0 
后 面 为 表示 i 的 一 位 二 进 制 数 。 口 

如 果 我 们 拼接 了 一 个 整数 的 编码 序列 ， 我们 总 能 够 恢复 段 的 长 度 序列 ， 且 据 此 可 以 恢复 原 














© 事实 上 , 除了 j=1( 即 i=0 或 i=1) 的 情况 ,我 们 可 以 确定 i 的 二 进 制 表示 以 1 开始 。 因 此 如 果 我 们 省 略 掉 这 个 
1， 而 只 使 用 剩余 的 7 - 1 位 ， 则 我 们 可 以 大 约 每 个 数字 节约 一 位 。 
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始 位 向 量 。 假 设 我 们 已 经 扫描 了 一 些 编码 位 ， 且 我 们 正 处 在 这 个 某 个 整数 ;的 编码 位 序列 的 开始 
位 置 上 。 我们 向 前 扫 措 到 第 一 个 0 并 确定 7 了 的 值 。 即 , 了 等 于 我 们 找到 第 一 个 0 所 扫描 过 的 位 数 
(在 计算 位 时 包括 0 本身)。 一 旦 我 们 知道 j)， 我 们 查找 后 j 位 ， 该 /位 的 二 进 制 表示 的 数 就 是 i。 
此 外 ,一旦 我 们 扫描 过 表示 的 i 的 二 进 制 位 ， 我们 便 知道 下 一 个 整数 编码 的 开始 位 置 。 所 以 我 们 
可 以 重复 这 个 过 程 。 

例 3.43 让 我 们 来 对 序列 11101101001011 进行 解码 。 从 头 开始 ， 我 们 在 第 四 位 上 找到 第 一 
个 0， 因 而 j=4， 下 面 四 位 为 1101， 因 而 我 们 确定 第 一 个 整数 是 13。 现 在 我 们 剩 下 001011 要 
解码 。 

由 于 第 一 位 是 0， 我 们 知道 下 一 位 表示 整数 本 身 ， 该 整数 为 0。 因 此 我 们 已 经 解码 的 序列 为 
13，0， 而 且 我 们 必须 解码 剩 下 的 序列 1011。 

我 们 在 第 二 个 位 置 上 找到 第 一 个 0， 于 是 我 们 下 结论 : 最 末 两 位 表示 最 后 的 整数 3。 我 们 的 
整个 分 段 长 度 序列 是 这 样 : 13，0,， 3。 从 这 些 数字 ， 我 们 能 够 重新 构造 实际 的 位 向 量 : 
0000000000000110001 。 口 

从 技术 上 讲 ， 每 个 这 样 解码 的 位 向 量 都 以 1 结尾 ， 且 任何 的 尾数 0 串 都 不 会 被 恢复 。 由 于 我 
们 可 能 知道 文件 中 记录 的 数目 ， 附 加 的 0 串 能 够 被 加 上 。 不 过 ， 既 然 在 位 向 量 中 0 表示 相应 的 记 
录 不 在 所 描述 的 集中 ， 我 们 甚至 不 必 知 道 记 录 的 总 数 ， 并 且 可 以 忽略 这 个 尾数 0 串 。 

例 3. 44 ”让 我 们 把 例 3. 42 中 的 某 些 位 向 量 转换 成 我 们 的 分 段 长 雇 码 。 前 三 个 年 龄 23 30 
和 45 的 位 向 量 分 别 为 100000001000 ，000000010000 和 010000000100。 第 一 个 位 向 量 的 分 段 长 度 
序列 为 (0，7) 。0 的 编码 是 00，7 的 编码 是 11011 。 这 样 ， 年 龄 25 的 位 向 量变 成 了 00110111。 

类 似 地 ， 年 龄 30 的 位 向 量 只 有 一 个 7 个 0 的 段 。 因 此 ， 它 的 代码 是 110111。 年 龄 45 的 位 向 
量 有 两 个 段 (1，7) ， 由 于 1 的 编码 是 01 ， 且 我 们 确定 的 7 的 编码 是 110111 ， 则 第 三 个 位 向 量 的 
编码 是 01110111。 O 

例 3. 44 中 的 压缩 并 不 大 。 不 过 ， 当 记录 数 很 小 时 ， 我 们 看 不 到 真正 的 好 处 。 为 了 认识 这 
种 编码 的 价值 ， 假 定 m =n， 即 建 有 位 图 索引 的 属性 的 值 都 只 出 现 过 一 次 。 注 意 到 长 度 为 i 的 段 
KAA 2log,i 位 。 如 果 每 个 位 向 量 只 有 一 个 1， 那 它 是 一 个 单一 段 ， 且 那个 段 的 长 度 不 可 能 比 n 
长 。 这 样 ， 在 这 种 情况 下 ， 位 向 量 编码 的 上 限 长 度 为 2logzn 位 。 

由 于 在 索引 中 有 个 位 向 量 ， 则 表示 这 个 索引 的 位 总 数 最 多 为 2nlog,n。 而 没有 压缩 的 位 向 
量 时 却 需要 n 位 。 


3.7.3 分 段 长 度 编码 位 向 量 的 操作 

当 我 们 需要 在 编码 位 向 量 上 执行 逐 位 与 /或 操作 时 ， 我 们 除了 解码 它们 且 在 原始 的 位 向 量 上 
操作 之 外 没有 别 的 选择 ， 不 过 ， 我 们 不 必 同 时 全 部 解码 。 我 们 描述 的 压缩 方法 使 我 们 可 以 一 次 解 
码 一 个 段 ， 且 我 们 能 因此 确定 操作 数位 向 量 的 下 一 个 1 在 什么 位 置 。 如 果 我 们 进行 或 操作 ， 我 们 
在 输出 的 相应 位 置 生成 1; 而 如 果 我 们 进行 与 操作 ， 当 且 仅 当 两 个 操作 对 象 在 相同 的 位 置 有 下 一 
个 1 时 ,我 们 才能 生成 1。 涉 及 的 算法 很 复杂 ,但 下 面 的 例子 可 能 使 这 个 思想 清晰 明了 。 

例 3.45 ”考虑 我 们 在 例 3. 44 中 得 到 的 年 龄 为 23 和 30 的 编码 位 向 量 : 00110111 和 110111。 
我 们 能 够 容易 地 解码 它们 的 第 一 个 段 :我们 找 出 它们 分 别 为 0 和 7。 也 就 是 25 的 位 向 量 的 第 一 个 
1 出 现在 位 置 1， 而 30 的 位 向 量 的 第 一 个 1 出 现在 位 置 8。 因 此 我 们 在 位 置 1 生成 1。 

下 一 步 ， 我 们 必须 解码 年 龄 25 的 位 向 量 的 下 一 个 段 ， 因 为 该 向 量 可 能 在 年 龄 30 的 位 向 量 在 
位 置 8 上 生成 1 之 前 生成 另外 一 个 1。 年 龄 25 的 位 向 量 的 下 一 个 段 是 7， 它 说 明 该 位 向 量 生成 下 
一 个 1 的 位 置 为 9。 因 此 我 们 生成 一 个 6 个 0 的 串 和 一 个 位 置 8 上 的 1， 它 是 来 自 于 年 龄 30 的 位 
向 量 。 位置 9 上 生成 一 个 1, 它 是 来 自 于 年 龄 25 的 位 向 量 。 这 两 个 向 量 都 没有 了 后 续 的 1 串 
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生成 。 
我 们 得 出 结论 ， 这 两 个 位 向 量 的 或 (OR ) 是 100000011。 既 然 在 本 例 中 ， 未 压缩 的 位 向 量 的 


长 度 都 为 12， 技 术 上 我 们 就 必须 追加 000。 口 


3.7.4 位 图 索引 的 管理 

我 们 已 经 描述 了 位 图 索引 上 的 操作 ， 但 还 有 三 个 重要 问题 没有 谈 到 : 

1. 当 我 们 想 查找 一 个 给 定 值 的 位 向 量 ， 或 者 给 定 范围 内 的 值 对 应 的 多 个 位 向 量 时 ， 我 们 如 
何 有 效 地 找到 它们 ? 

2. 当 我 们 已 经 选择 好 回答 查询 的 记录 集 时 ， 我 们 如 何 有 效 地 检索 这 些 记录 ? 

3. 当 数 据 文件 由 于 记录 的 插 人 或 删除 发 生 改 变 时 ， 我 们 如 何 调整 给 定 字段 上 的 位 图 索引 ? 

查找 位 向 量 

把 位 向 量 看 成 记录 ， 它 们 的 键 是 对 应 于 该 位 向 量 的 字段 值 (虽然 值 本 身 不 在 “记录 ”中 出 现 ) 。 
然后 任何 辅助 索引 技术 都 可 以 使 我 们 有 效 地 按 值 找到 它们 的 位 向 量 。 

我 们 也 需要 在 某 处 存储 位 向 量 。 最 好 是 把 它们 看 作 可 变 长 记录 ， 因 为 随 着 数据 文件 中 记录 
的 增加 ， 它 们 一 般 会 增长 。 在 这 时 ，2.7 节 的 技术 很 有 用 。 

查找 记录 

现在 ， 让 我 们 来 考虑 第 二 个 问题 : 一旦 我 们 确定 了 我 们 所 需要 的 文件 中 的 记录 ， 我 们 如 何 
找到 它 。 同 样 ， 我 们 已 经 学 过 的 技术 可 以 被 采用 。 把 第 大 个 记录 看 作 索 引 键 值 为 有 (虽然 该 键 实 
际 上 并 不 在 记录 中 出 现 ) 。 然 后 我 们 可 在 数据 文件 上 创建 辅助 索引 ， 它 的 索引 键 是 记录 号 。 

数据 文件 修改 的 处 理 

在 位 图 索引 中 ， 要 反映 数据 文件 的 修改 有 两 个 方面 的 问题 : 

1. 一 旦 分 配 后 ， 记 录 数 必须 保持 一 定 。 

2. 数据 文件 的 改变 需要 位 图 索引 也 做 相应 改变 。 

第 (1) 点 的 后 果 是 当 我 们 删除 记录 i 时 ,“ 隐 去 ”其 记录 号 是 最 容易 的 。 它 在 数据 文件 中 的 空 
间 用 “删除 标记 ”代替 。 位 图 索引 也 必须 改变 ， 因 为 在 位 置 上 为 1 的 位 向 量 必须 把 这 个 1 改 成 0。 
注意 : 因为 在 删除 之 前 ， 我 们 知道 记录 i 的 值 ， 所 以 我 们 能 够 找到 适当 的 位 向 量 。 

接 下 来 考虑 新 记录 的 插入 。 我 们 保留 了 下 一 个 可 用 记录 号 ， 并 且 把 它 分 派 给 新 记录 。 然 后 ， 
对 于 每 个 位 图 索引 ， 我 们 必须 确定 新 记录 在 相应 字段 的 值 且 在 该 值 的 位 向 量 后 面 追加 1。 从 技术 
上 讲 ， 在 这 个 索引 的 其 他 位 向 量 的 末端 都 加 上 一 个 新 0， 但 是 如 果 我 们 使 用 了 像 3.7.2 节 的 压缩 
技术 ， 则 对 于 压缩 值 就 不 需要 做 任何 改变 。 

作为 一 种 特殊 的 情况 ， 新 记录 可 能 有 一 个 索引 字段 以 前 没有 出 现 过 的 值 。 在 这 种 情况 下 ， 我 
们 需要 给 这 个 值 一 个 新 的 位 向 量 ， 且 这 个 位 向 量 和 它 的 相应 值 需 要 被 插 人 到 辅助 索引 结构 中 ， 
该 结构 被 用 来 按 给 定 值 查找 它 的 相应 的 位 向 量 。 

最 后 ， 让 我 们 来 考虑 对 数据 文件 中 记录 i 的 修改 ， 即 把 一 个 有 位 图 索引 的 字段 的 值 从 值 " 改 
为 值 w。 我 们 必须 找到 v 的 位 向 量 并 把 位 置 ? 上 的 1 改 为 0。 如 果 存 在 一 个 值 w 的 位 向 量 ， 那 我 们 
把 它 的 位 置 ? 上 的 0 改 为 1; 如 果 还 不 存在 值 w 的 位 向 量 ， 那 我 们 就 像 前 一 段落 为 这 种 情况 讨论 
的 那样 创建 一 个 位 向 量 。 


3.7.5 习题 

习题 3. 7. 1 ”针对 下 列 属 性 ， 分 别 用 (i) 非 压缩 方式 和 (ii) 使 用 3.7.2 节 的 压缩 方式 给 图 3-36 中 的 数据 画 出 
位 图 索引 : a) RE; b) AA; c) 硬 盘 。 

习题 3. 7. 2 利用 例 3. 41 中 的 位 图 ， 找 出 年 龄 范围 为 40 ~ 60 且 薪 水 为 100 ~ 200 的 首饰 买主 。 

习题 3. 7. 3 ”考虑 一 个 有 100 000 个 记录 的 文件 ， 且 字段 下 有 普 个 不 同 值 : 
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a) 作 为 m WRA, F RSA BD hE? 

1b) 假 定编 号 从 1 到 100, 000 HIDRN TR 下 的 值 按 循环 方式 被 给 出 。 因 此 ， 每 个 值 每 隔 严 个 记录 出 现 一 
次 。 使 用 压缩 索引 需要 多 少 个 字 节 ? 

习题 3. 7.4 使 用 3.7.2 节 的 方法 ， 编 码 下 列 位 图 ; 

a) 01100000010000000100 

b) 100000001000001001010001 

c) 0001000000000001000010000 


! 习题 3. 7.5 我 们 在 3.7.2 节 中 建议 : 把 编码 数 ; 占用 的 位 数 从 我 们 在 那 一 节 里 使 用 的 log, i 减少 到 接近 


log,i 是 可 能 的 。 当 i 很 大 时 ， 指 出 如 何 尽 可 能 地 接近 该 极限 。 提 示 : 我 们 使 用 一 元 编码 





我 们 用 来 对 i 


的 二 进 制 编码 的 长 度 进行 编码 的 方法 。 你 能 用 二 进 制 码 的 长 度 编码 吗 ? 


3.8 


小 结 


顺序 文件 : 几 种 简单 的 文件 组 织 ， 其 产生 方式 是 将 数据 文件 按 某 个 排序 键 排序 并 在 该 文 
件 上 建立 索引 。 

筒 密 索 引 和 稀 聋 索引 : 稠密 索引 为 数据 文件 的 每 个 记录 设 一 个 键 - 指针 对 ， 而 稀 朴 索引 
为 数据 文件 的 每 个 存储 块 设 一 个 键 - 指针 对 。 

多 级 索引 : 在 索引 文件 上 再 建 索 引 ， 在 索引 的 索引 上 再 建 索 引 …… 这 在 有 时 候 是 很 有 用 
的 。 高 级 索引 必须 是 稀疏 的 。 

辅助 索引 : 即使 数据 文件 没有 按 查找 键 天 排序 ， 我 们 也 可 在 键 玉 上 建立 索引 。 这 样 索引 
必须 是 稠密 的 。 

倒 排 索引 : 文件 及 其 包含 的 词 之 间 的 关系 通常 可 通过 一 个 词 - 指针 对 的 索引 结构 来 表示 。 
指针 指向 “ 桶 ”文件 的 某 个 位 置 ， 该 位 置 上 有 一 个 指向 文件 中 该 词 出 现 的 地 方 的 指针 列表 。 
B - 树 ; 这 些 结构 实质 上 是 有 着 很 好 的 扩充 性 能 的 多 级 索引 。 带 及 个 键 和 N+1 个 指针 
的 存储 块 被 组 织 成 一 棵 树 。 叶 结 点 指向 记录 。 任 何 时 候 所 有 非 根 索引 块 都 在 半 满 与 全 满 
之 间 。 

BANA: 同 我 们 创建 主 存 散 列 表 一 样 ， 我 们 也 可 以 基于 辅 存 的 存储 块 来 建立 散 列表 。 散 
列 函数 将 键 值 映 射 到 桶 ， 有 效 地 将 数据 文件 的 记录 分 配 到 多 个 小 组 ( 桶 )。 桶 用 一 个 存储 
块 和 可 能 出 现 的 溢出 块 表示 。 

可 扩展 数列: 这 种 方法 允许 在 存在 记录 数 太 多 的 桶 时 将 桶 的 数目 加 倍 。 它 使 用 指向 块 的 
指针 数组 来 表示 桶 。 为 了 避免 块 过 多 ， 几 个 桶 可 以 用 同一 个 块 表 示 。 

线性 散 列 : 这 种 方法 每 当 桶 中 的 记录 比例 超出 阐 值 时 增加 一 个 桶 。 由 于 单个 桶 的 记录 不 
会 引起 表 的 扩展 ， 所 以 在 某 些 情形 下 需要 溢出 块 。 

需要 多 维 索引 的 查询 : 在 多 维 数据 上 需要 被 支持 的 查询 种 类 包括 : 部 分 匹配 (在 维 的 子 集 
上 指定 值 的 点 集 ) 、 范 围 查 询 ( 在 每 一 维 的 范围 内 的 点 集 )、 最 近邻 查询 ( 离 给 定点 最 近 的 
点 ) 和 where-am-I( 包含 一 个 给 定点 的 区 域 或 区 域 集 ) 查询 。 

最 近邻 查询 的 执行 : 许多 数据 结构 允许 通过 执行 一 个 围绕 给 定点 的 范围 查询 来 执行 最 近 
邻 查询 。 要 是 在 该 范围 内 不 存在 点 ， 则 扩大 这 个 范围 。 因 为 在 矩 形 范围 内 找到 了 点 并 不 
排除 在 矩形 外 有 更 近 点 的 可 能 性 ， 所 以 我 们 必须 小 心 。 

网 格 文件 : 网 格 文件 在 每 一 维 上 切 分 点 空间 。 网 格 线 间 的 距离 可 以 不 同 ,， 且 每 一 维 上 的 
网 格 线 也 可 以 不 同 。 只 要 数据 分 布 得 相当 均匀 ， 网 格 文件 就 能 很 好 地 支持 范围 查询 、 部 
分 匹配 查询 和 最 邻近 查询 。 

分 段 散 列 表 : 分 段 散 列 函数 从 每 一 维 上 构造 桶 号 的 一 些 二 进 制 位 。 它 们 支持 部 分 匹配 查 
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询 较 好 ， 且 不 依赖 于 数据 的 均匀 分 布 。 

。 多 键 索引 : 一 个 简单 的 多 维 结构 有 一 个 根 ， 根 是 某 个 属性 的 索引 ， 它 导 人 第 二 个 属性 上 
的 索引 集合 ， 而 第 二 个 属性 的 索引 又 导 人 第 三 个 属性 的 索引 集合 等 等 。 它 们 对 于 范围 和 
最 近邻 查询 有 用 。 

。 kd - 树 : 这 些 树 像 二 又 搜索 树 , 但 它们 按 不 同 层次 在 不 同属 性 上 分 支 。 它 们 较 好 地 支持 
部 分 匹配 、 范 围 和 最 近邻 查询 。 为 了 使 该 结构 适合 二 维 辅 存 操作 ， 需 要 把 多 个 树 结 点 压 
缩 到 一 个 块 。 

。 四 又 树 : 四 又 树 划 分 多 维 立方 体 成 四 个 象限 ， 且 若 它们 有 太 多 的 点 ， 则 递归 地 用 同样 的 
方式 划分 这 些 象限 。 它 们 支持 部 分 匹配 、 范 围 和 最 近邻 查询 。 

。R- 树 : 这 种 树 的 结构 通常 表示 成 区 域 的 集合 ， 且 通过 聚集 它们 成 一 个 更 大 区 域 的 层次 结 
构 。 它 对 于 where-am-I 查询 有 帮助 。 如 果 原 子 区 域 实际 上 是 点 ， 它 将 同样 支持 在 本 章 中 
研究 的 其 他 类 型 的 查询 。 

。 位 图 索引 ; 这 种 索引 结构 支持 多 维 查询 。 它 排序 点 或 记录 并 且 通 过 位 向 量 表示 记录 的 位 
置 。 这 些 索引 支持 范围 、 最 近邻 和 部 分 匹配 查询 。 

。 压缩 位 图 : 为 了 节省 由 很 少 个 1 的 向 量 组 成 位 的 图 索引 的 空间 ， 通 过 采用 分 段 长 度 编 码 
来 对 位 图 索引 进行 压缩 。 
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第 4 章 查询 执行 


查询 处 理 的 这 个 大 的 话题 将 在 这 一 章 与 第 5 章 中 讨论 。 坦 询 处 理 器 是 DBMS 中 的 一 个 部 件 集 
合 ， 它 能 够 将 用 户 的 查询 和 数据 修改 命令 转变 为 数据 库 上 的 操作 序列 并 且 执 行 这 些 操作 。 既 然 
SQL 允许 我 们 在 很 高 的 层次 上 表达 查询 ， 那 么 查询 处 理 器 必须 提供 关于 查询 将 被 如 何 执行 的 大 量 
的 细节 。 此 外 ， 查 询 的 一 个 朴素 的 执行 策略 可 能 导致 采用 的 查询 执行 算法 所 用 时 间 比 必需 的 高 
出 许多 售 。 

图 4-! 表明 了 第 4 章 与 第 5 的 主题 的 划分 。 在 本 章 中 ， 我 们 将 集中 在 查询 执行 上 面 ， 也 就 是 
操作 数据 库 数 据 的 算法 。 我 们 将 重点 放 在 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》5. 2 节 中 描述 的 扩 
展 的 关系 代数 操作 上 。 因 为 SQL 使 用 包 模 型 ， 我 们 也 假设 关系 是 包 ， 因 此 将 使 用 《数据 库 系统 基 
础 教程 ( 原 书 第 3 版 )》5. 1 节 中 提 到 的 包 模 型 中 的 操作 。 

我 们 将 讨论 执行 关系 代数 操作 的 基本 方法 。 这 些 方法 的 基本 策略 有 所 不 同 ， 扫 描 、 散 列 、 排 
序 和 索引 是 我 们 要 讨论 的 主要 方法 。 这 些 方法 对 可 得 到 的 主 存 容量 所 做 的 假设 也 有 所 不 同 。 一 
些 算 法 假设 可 得 到 的 主 存 至 少 能 够 容纳 参加 操作 的 一 个 关系 ; 另 一 些 算法 假设 操作 对 象 太 大 以 
至 于 不 能 装 在 主 存 中 。 这 些 算法 在 代价 和 结构 上 有 明显 的 差别 。 

查询 编译 预览 

为 了 建立 查询 执行 所 需 的 背景 ， 我 们 给 出 了 下 一 章 内 容 的 简短 概要 。 正 如 图 4-2 所 描绘 的 ， 
查询 编译 可 以 分 为 三 大 步骤 ; 

a) 分析 ， 建 立 查询 的 分 析 树 。 

b) 查 询 重 写 ， 分 析 树 被 转化 为 初始 查询 计划 ， 这 种 查询 计划 通常 是 查询 的 代数 表达 式 。 然 
后 初始 查询 计划 被 转化 为 一 个 预期 所 需 执行 时 间 较 小 的 等 价 的 计划 。 


SQL 查询 


/人 查询 表达 式 树 






查询 优化 /\ we 


人 人 物理 查询 计划 树 
执行 计划 
图 4-1 查询 处 理 器 的 主要 部 分 图 42 ARREN 
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c) 物 理 计划 生成 ， 通 过 为 b) 中 抽象 的 查询 计划 ， 即 通常 所 谓 远 辑 查询 计划 的 每 一 个 操作 符 
选择 实现 算法 并 选择 这 些 操作 符 的 执行 顺序 ， 逻辑 计划 被 转化 为 物理 查询 计划 。 与 分 析 结 果 和 
逻辑 计划 一 样 ， 物 理 计 划 用 表达 式 树 来 表示 。 物 理 计划 还 包含 许多 细节 ， 如 被 查询 的 关系 是 怎样 
被 访问 的 ， 以 及 一 个 关系 何 时 或 是 否 应 当 被 排序 。 

(b) 和 (e) 部 分 常 被 称 作 查 询 优化 器 ， 它 们 是 查询 编译 的 难点 。 为 了 选择 最 好 的 查询 计划 ， 
我 们 需要 判断 : 

1. 查询 的 哪 一 个 代数 等 价 形式 会 为 回答 查询 带 来 最 有 效 的 算法 ? 

2. 对 选中 形式 的 每 一 个 操作 ， 我 们 应 当 使 用 什么 算法 来 实现 ? 

3. 数据 如 何 从 一 个 操作 传 到 另 一 个 操作 ， 比 如 使 用 流水 线 方式 ， 主 存 缓冲 区 还 是 通过 
磁盘 ? 

这 些 选择 中 的 每 一 个 都 依赖 于 关于 数据 库 的 元 数据 。 查 询 优 化 可 利用 的 典型 的 元 数据 包括 : 
每 个 关系 的 大 小 ， 统 计数 据 如 一 个 属性 的 不 同 值 的 近似 数目 和 频率 ， 某 些 索引 的 存在 ， 以 及 数据 
在 磁盘 上 的 分 布 。 


4.1 物理 查询 计划 操作 符 介绍 


物理 查询 计划 由 操作 符 构成 ， 每 一 个 操作 符 实现 计划 中 的 一 步 。 物 理 操作 符 常 常 是 一 个 关 
系 代数 操作 符 的 特定 的 实现 。 但是， 我 们 也 需要 用 物理 操作 符 来 完成 男 一 些 与 关系 代数 操作 符 
无 关 的 任务 。 例 如 ,我们 经 常 需要 “扫描 "一 个 表 ， 即 将 作为 关系 代数 表达 式 的 操作 对 象 的 某 个 
关系 的 每 个 元 组 调 入 内 存 。 这 个 关系 是 对 某 个 其 他 的 操作 的 典型 操作 数 。 

这 一 节 中 我 们 将 介绍 物理 查询 计划 的 基本 构造 块 ， 后 面 的 节 中 包括 有 效 地 实现 关系 代数 操 
作 符 的 更 复杂 的 算法 ， 这 些 算法 也 是 物理 查询 计划 的 一 个 必 不 可 少 的 部 分 。 我 们 还 在 这 里 介绍 
“迭代 器 "概念 ， 它 是 使 包含 在 一 个 物理 查询 计划 中 的 操作 符 之 间 能 够 传递 对 元 组 的 请 求 以 及 结 
果 的 一 个 重要 方法 。 


4.1.1 扫描 表 

可 能 我 们 在 一 个 物理 查询 计划 中 可 以 做 的 最 基本 的 事情 是 读 一 个 关系 R 的 整个 内 容 。 这 个 
操作 符 的 一 个 变 体 包含 一 个 简单 的 谓词 ， 我 们 仅 读 出 关系 R 中 那些 满足 这 个 谓词 的 元 组 。 定 位 
关系 R 中 元 组 的 基本 方法 有 两 种 : 

1. 在 很 多 情况 下 ， 关 系 玉 存 放 在 二 级 存储 器 的 某 个 区 域 中 ， 它 的 元 组 排放 在 块 中 。 系 统 知 
道 包 含 尽 的 元 组 的 块 ， 并 且 可 以 一 个 接 一 个 得 到 这 些 块 。 这 个 操作 叫做 表 - 扫描 。 

2. 如 果 民 的 任意 一 个 属性 上 有 有 索引， 我们 可 以 使 用 这 个 索引 来 得 到 了 R 的 所 有 元 组 。 比 如 ，R 
上 的 一 个 像 3. 1.3 节 中 所 讨论 的 那样 的 稀 朴 索引 ， 可 以 用 来 引导 我 们 得 到 所 有 的 包含 尺 的 块 ， 即 
使 除 此 之 外 我 们 就 不 知道 这 些 块 是 什么 。 这 个 操作 叫做 索引 - 扫描 。 

我 们 将 在 4.6.2 节 讨 论 选择 操作 的 实现 时 再 次 考虑 索引 - 扫描 。 然 而 就 目前 来 说 ， 可 
以 看 到 的 最 重要 的 事实 是 我 们 不 仅 可 以 通过 索引 得 到 它 索 引 的 关系 的 所 有 元 组 ， 还 可 以 通 
过 索引 得 到 在 构成 索引 的 属性 或 属性 组 合 上 具有 特定 值 ( 或 有 时 是 一 个 特定 的 值 的 范围 ) 的 
那些 元 组 。 


4.1.2 扫描 表 时 的 排序 

在 我 们 读 一 个 关系 的 元 组 时 ， 有 很 多 原因 促使 我 们 将 关系 排序 。 其 中 一 个 是 查询 可 能 包含 
一 个 ORDER BY 子 句 ， 要 求 对 关系 排序 。 另 一 个 原因 是 的 关系 代数 操作 的 许多 种 算法 要 求 一 个 
或 所 有 的 操作 对 象 是 排序 的 关系 。 这 些 算 法 在 4. 4 节 和 其 他 一 些 地 方 出 现 。 

物理 查询 计划 操作 符 排序 - 拉 描 接受 关系 R 和 对 作为 排序 依据 的 属性 组 的 说 明 ， 并 产生 排 
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UF Ro RAE - 扫描 的 方法 有 多 种 。 如 果 我 们 想 产生 按照 属性 a 排序 的 关系 R,， 并 且 a 
上 有 一 个 B- 树 索引 或 RR 是 作为 按 a 排序 的 索引 顺序 文件 来 存储 的 ， 那 么 对 索引 进行 扫描 使 我 们 
得 到 具有 所 需 顺序 的 尺 。 如 果 排 序 的 关系 尺 很 小 的 ， 可 以 装 进 内 存 ， 那 么 我 们 可 以 使 用 表 扫 描 或 
索引 扫描 来 得 到 它 的 元 组 ， 再 使 用 主 存 排序 算法 。 如 果 灵 太 大 以 至 于 不 能 装 进 内 存 ， 那 么 4.4.1 
节 中 的 多 路 归并 方法 是 一 个 好 的 选择 。 


4.1.3 物理 操作 符 计算 模型 


一 个 查询 通常 包括 几 个 关系 代数 操作 ， 相 应 的 物理 查询 计划 由 几 个 物理 操作 符 组 成 。 既 然 
明智 地 选择 物理 计划 操作 符 是 一 个 好 的 查询 处 理 器 所 必 不 可 少 的 ， 我 们 必须 能 够 估价 我 们 使 用 
的 每 个 操作 符 的 “代价 ”。 我 们 将 使 用 磁盘 IO 的 数目 作为 衡量 每 个 操作 的 代价 的 标准 。 这 个 衡 
量 标准 与 我 们 的 一 个 观点 ( 见 2.3.1 节 ) 是 一 致 的 ， 即 从 磁盘 中 得 到 数据 的 时 间 比 对 内 存 中 的 数 
据 做 任何 有 用 操作 花费 的 时 间 都 长 。 

在 比较 相同 操作 的 算法 时 ， 我 们 将 做 一 个 假设 ， 它 可 能 会 使 我 们 在 开始 时 感到 惊讶 : 

© 假设 任何 操作 符 的 操作 对 象 都 位 于 磁盘 上 ， 但 操作 符 的 结果 放 在 内 存 中 。 

如 果 操 作 符 产 生 一 个 查询 的 最 终结 果 ， 这 个 结果 需要 写 到 磁盘 上 ， 那 么 保存 结果 的 代价 
仅仅 依赖 于 结果 的 大 小 ， 而 不 依赖 于 结果 是 怎样 被 计算 的 。 我 们 可 以 简单 地 将 最 后 的 回 写 代 
价 加 到 这 个 查询 的 总 代价 上 。 但 是 ,在 许多 应 用 中 ， 结 果 根 本 不 存放 到 磁盘 上 ， 而 是 打印 或 
传送 到 某 个 格式 化 程序 。 于 是 ， 在 输出 上 耗费 的 磁盘 LO 或 者 是 零 ， 或 者 依赖 于 某 个 未 知 的 
程序 对 数据 所 做 操作 。 不 管 哪 种 情况 ， 对 结果 写 的 代价 都 不 会 影响 我 们 对 查询 执行 操作 算法 
的 选择 。 

同样 ， 形 成 一 个 查询 的 部 分 (而 非 整个 查询 ) 的 操作 符 的 结果 通常 也 不 写 到 磁盘 上 。 在 4.1.6 
节 中 我 们 将 讨论 “迭代 器 ”， 其 中 一 个 操作 符 0, 的 结果 在 内 存 中 构造 ， 每 次 可 能 是 一 小 部 分 ， 并 
作为 操作 对 象 传递 给 另 一 个 操作 符 0;。 在 这 种 情况 下 ， 我 们 不 必 将 0O 的 结果 写 到 磁盘 上 ， 而 
且 ， 我 们 还 节省 了 使 用 这 一 结果 作为 操作 对 象 的 操作 符 0, 从 磁盘 上 读 取 该 操作 对 象 的 开销 。 这 
一 节省 为 查询 优化 器 提供 了 极 好 的 机 会 。 


4.1.4 衡量 代价 的 参数 


现在 ， 让 我 们 引入 用 来 表达 一 个 操作 符 代 价 的 参数 (有 时 被 称 为 统计 数据 ) 。 如 果 优 化 器 打 
算 确定 许多 查询 计划 中 的 哪 一 个 执行 最 快 ， 那 么 估计 代价 是 必需 的 。5. 5 节 介绍 这 些 代价 估算 的 
利用 。 

我 们 需要 一 个 参数 来 表达 操作 符 使 用 的 内 存 大 小 ， 我 们 还 需要 其 他 参数 来 衡量 它 的 操作 对 
象 的 大 小 。 假 设 内 存 被 分 成 缓冲 区 ， 缓 冲 区 的 大 小 与 磁盘 块 的 大 小 相同 。 那 么 M 表示 一 个 特定 
的 操作 符 执行 时 可 以 获得 的 内 存 缓冲 区 的 数目 。 有 时 候 ， 我 们 可 以 认为 M 是 整个 内 存 或 内 存 的 
绝 大 部 分 。 但 是 ， 我 们 也 将 看 到 几 个 操作 共享 内 存 的 情况 ， 这 时 M 比 整 个 内 存 要 小 得 多 。 事 实 
上 ， 就 像 我 们 将 在 4. 7 节 中 讨论 的 那样 ， 一 个 操作 可 得 到 的 缓冲 区 的 数目 可 能 不 是 一 个 可 以 预计 
的 常数 ， 而 可 能 在 执行 过 程 中 根据 同时 执行 的 其 他 进程 来 决定 。 如 果 是 这 样 ，M 实际 上 是 对 一 
个 操作 可 得 到 的 缓冲 区 数目 的 估计 。 

接 下 来 ， 让 我 们 来 考虑 衡量 与 访问 相关 的 关系 所 需 代 价 的 参数 。 这 些 衡 量 关 系 中 数据 的 多 
少 和 分 布 的 参数 经 常 被 定期 地 计算 ， 以 便 帮 助 查询 优化 器 选择 物理 操作 符 。 

我 们 将 做 一 个 简化 的 假设 ， 即 在 磁盘 上 一 次 访问 一 个 块 的 数据 。 实 际 上 ， 如 果 我 们 能 够 一 次 
读 一 个 关系 的 许多 块 ， 这 些 块 可 能 来 自 一 个 磁道 上 连续 的 块 ， 那 么 2.3 节 中 讨论 的 某 个 技术 可 能 
会 提高 算法 的 速度 。 有 三 类 参数 B、7 和: 
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。 当 描 述 一 个 关系 RR 的 大 小 时 ， 绝 大 多 数 情 况 下 ， 我 们 关心 包含 R 的 所 有 元 组 所 需 的 块 的 
数目 。 这 个 块 的 数目 表示 为 B(R) ， 如 果 我 们 知道 指 的 是 关系 R， 就 可 以 仅仅 表示 为 Bo 
通常 ， 我 们 假设 R ERR, BR ARE B 个 块 中 或 近似 BSR, 

。 有 了 时候， 我们 也 需要 知道 尺 中 的 元 组 的 数目 ， 我 们 将 这 个 数量 表示 为 T(R) ， 或 在 我 们 知 
道 所 指 关系 为 R 时 简 记 为 T。 如 果 我 们 需要 一 个 块 中 能 容纳 的 R 的 元 组 数 ， 我 们 可 以 使 
HEA T/B, 

。 最 后 ， 我 们 有 时 候 希 望 参考 出 现在 关系 的 一 个 列 中 的 不 同 值 的 数目 。 如 果 尺 是 一 个 关系 ， 
它 的 一 个 属性 是 a， 那么 V(R,， 4a) 是 R 中 4a 对 应 列 上 不 同 值 的 数目 。 更 一 般 地 ， 如 果 
[al:，@，*…，a,] 是 一 个 属性 列表 ， 那 么 VC(R，[a,，a,，…，a,]) 是 RR 中 属性 a,, a, 
=, a, 对 应 列 上 不 同 的 -元 组 的 数目 。 换 言 之 , CEST, a, --, a,(R)) PH 
组 数目 。 


4.1.5 扫描 操作 符 的 V/O 代价 

作为 前 面 介绍 的 参数 的 一 个 简单 应 用 ， 我 们 可 以 表示 迄今 为 止 讨论 过 的 每 个 表 - 扫描 操作 
符 的 磁盘 IO 数目 。 如 果 关 系 R 是 聚集 的 ， MAR - 扫描 操作 符 的 磁盘 IO 数目 近似 为 B。 同 
样 ， 如 果 民 能 够 全 部 装 入 主 存 ， 那 么 我 们 可 以 通过 将 RR 读 入 主 存 并 做 内 排序 ， 从 而 实现 排序 - 
扫描 ， 所 需 磁盘 LO 数 仍 是 B. 

但 是 ， 如 果 尺 不 是 聚集 的 ， 那 么 所 需 磁盘 0O 数 通 常 要 高 得 多 。 如 果 RR 分 布 在 其 他 关系 的 
元 组 之 间 ， 那 么 表 -扫描 所 需 读 的 块 数 可 能 与 R 的 元 组 一 样 多 ; 即 IO 代价 为 T7。 类 似 地 ， 如 果 
RRE RHE, 但 是 六 能 被 内 存 容纳 ， 那 么 将 R 的 全 部 元 组 调 人 内 存 所 需 磁盘 ORT RE 
我 们 所 需要 的 。 

最 后 ， 让 我 们 考虑 索引 -扫描 的 代价 。 通 常 ， 关 系 RR 的 一 个 索引 需要 的 块 数 比 B(R) 少许 
多 。 因 此 ， 扫描 整个 RR( 至 少 需 B 次 磁盘 LO) 比 查看 整个 索引 需要 更 多 的 WO。 这 样 ， 即 便 索 
引 -扫描 既 需 要 检查 关系 又 需要 检查 它 的 索引 : 

© 我 们 继续 用 B 或 7 了 作为 使 用 索引 时 访问 整个 聚集 或 不 诊 集 的 关系 的 代价 估算 。 

但 是 ， 如 果 我 们 不 只 想 要 RR 的 一 部 分 ,我 们 通常 能 够 避免 查看 整个 索引 和 整个 R。 我 们 将 对 
索引 的 这 些 使 用 推迟 到 4. 6. 2 节 中 分 析 。 


4. 1.6 实现 物理 操作 符 的 迭代 器 

许多 物理 操作 符 可 以 实现 为 迭代 器 。 迭 代 器 是 三 个 方法 的 集合 ， 这 三 个 方法 允许 物理 操作 
符 结 果 的 使 用 者 一 次 一 个 元 组 地 得 到 这 个 结果 。 这 三 个 形成 一 个 操作 的 迭代 器 的 方法 是 : 

1，Open( ) 。 这 个 方法 启动 获得 元 组 的 过 程 ， 但 并 不 获得 元 组 。 它 初始 化 执行 操作 所 需 的 任 
何 数据 结构 并 为 操作 的 任何 操作 对 象 调用 Open( ) 。 

2，GetNext( ) 。 这 个 方法 返回 结果 中 的 下 一 个 元 组 ， 并 且 对 数据 结构 做 必要 的 调整 以 得 到 
后 续 元 组 。 在 获取 结果 的 下 一 元 组 时 ， 它 通常 在 操作 对 象 上 一 次 或 更 多 次 地 调用 GetNext( ) 。 
如 果 再 也 没有 元 组 返回 了 ，GetNext( ) 将 返回 特殊 值 NotFound， 这 个 值 肯 定 不 会 与 任何 元 组 
混淆 。 

3. Close() 。 这 个 方法 在 所 有 的 元 组 或 使 用 者 想得到 的 所 有 元 组 都 获得 后 终结 迭代 。 它 通常 
为 操作 符 的 每 个 操作 对 象 调用 Close( ) 。 
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为 何 使 用 迭代 器 ? 

我 们 将 在 5.7 节 中 看 到 在 查询 计划 中 ， 和 迭代 器 如 何 组 合 起 来 以 支持 有 效 的 执行 。 它 们 与 
物化 策略 相反 ， 物 化 策略 产生 每 个 操作 符 的 整个 结果 ， 或 者 将 它 存放 到 磁盘 上 ， 或 者 允许 它 
在 内 存 中 占据 空间 。 在 使 用 迭代 器 时 ， 同 一 时 刻 活 跃 的 操作 有 许多 。 元 组 按照 需要 在 操作 符 
之 间 人 传递， 这样 就 减少 了 存储 要 求 。 当 然 ， 正 如 我 们 将 见 到 的 那样 ， 并 非 所 有 物理 操作 符 对 
迭代 方法 或 “流水 线 ” 的 支持 都 是 有 意义 的 。 在 某 些 情况 下 ,几乎 所 有 的 工作 都 需要 Open( ) 
方法 来 完成 ， 这 样 就 等 效 于 物化 方法 了 。 
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物理 操作 符 ) 都 有 一 个 “类 ”， 这 个 “类 ”在 它 的 实例 上 定义 了 Open( ) GetNext( ) 和 Close( ) 
方法 。 

例 4.1 最 简单 的 迭代 器 可 能 是 表 扫 描 操作 符 open Ot 
的 实现 。 和 迭代 器 由 类 TableScan 实现 ， 它 在 查询 计 b: =R 的 第 一 块 ， 
划 中 是 TableScan 类 用 我 们 希望 扫描 的 关系 RG | t =b 的 第 一 个 元 组 ; 
参数 化 后 的 实例 。 我 们 假设 R 是 聚集 在 某 个 块 序 } 

列 中 的 关系 ， 我 们 可 以 很 方便 地 访问 它 。 也 就 是 
说 ,我 们 假设 “得 到 R 的 下 一 个 块 " 这 一 想法 由 存 

















GetNext (){ 
IF(t 已 超过 块 b 的 最 后 一 个 元 组 ){ 


储 系统 实现 ， 不 需要 详细 描述 。 此 外 ,我们 假设 块 将 b RORA Fik 

内 有 一 个 记录 (元 组 ) 的 目录 ， 这 样 可 以 容易 地 得 IF( 没 有 下 一 块 ) 

到 块 中 的 下 一 个 元 组 或 者 判断 是 否 到 达 最 后 一 个 RETURN NotFound; 

元 组 。 ELSE/* b 是 一 个 新 块 * / 


t: = 块 b 上 的 第 一 个 元 组 ; 





图 43 简略 描述 了 这 个 迭代 符 的 三 个 方法 。 我 }/* 现在 我 们 已 准备 好 返回 t 并 前 进 * / 
们 设想 有 块 指 针 b 和 指向 块 b 中 元 组 的 元 组 指针 to oldt: =t; 
我 们 假设 这 两 个 指针 分 别 可 以 “超出 ”最 后 一 个 块 将 七 前 进 到 b 的 下 一 元 组 ; 
和 最 后 一 个 元 组 ， 并 且 在 这 两 种 情况 发 生 时 能 够 指 RETURN oldt; 


明 。 注 意 在 这 个 例子 中 Close( ) 没 做 什么 事 。 实 际 |? 
E, BRR Close( ) 方法 可 能 以 各 种 方式 清理 | oeol 
DBMS 的 内 部 结构 。 它 可 能 通知 缓冲 区 管理 器 某 些 |) 
缓冲 区 已 不 再 需要 ， 或 者 通知 并 发 管理 器 关系 的 读 一 一 一 一 一 一 一 一 一 一 一 一 
操作 已 经 完成 。 口 图 4-3 KARR ER - 扫描 操作 符 的 一 个 迭代 器 

例 4. 2 现在 ， 让 我 们 考虑 一 个 迭代 器 在 它 的 Open( ) 方 法 中 执行 大 部 分 工作 的 例子 。 操 作 
符 是 排序 - 扫描 ， 其 中 我 们 读 一 个 关系 R 的 元 组 ， 按 照排 好 的 顺序 将 它们 返回 。 在 我 们 检查 完 R 
的 每 一 个 元 组 之 前 ， 我 们 甚至 连 第 一 个 元 组 也 不 能 返回 。 为 了 简单 起 见 ， 我 们 假设 很 小 ， 能 
够 直接 装 进 内 存 。 

Open( ) 会 将 这 个 关系 有 尺 放 人 内 存 中 。 它 可 能 会 对 R 中 的 元 组 进行 排序 ， 这 样 GetNext( ) RE 
要 对 元 组 进行 依次 返回 ， 便 能 得 到 有 序 的 结果 。Open ) 也 可 能 不 对 R 中 的 元 组 进行 排序 ，Get- 
Next( ) 可 以 对 剩 下 的 第 一 个 元 组 进行 选择 ， 执 行 一 趟 的 选择 排序 操作 。 o 

例 4. 3 最后， 我们 考虑 一 个 关于 多 个 选 代 器 怎样 通过 调用 其 他 迭代 器 而 结合 起 来 的 简单 
例子 。 我 们 的 操作 是 包 的 并 RUS， 这 里 我 们 首先 产生 R 的 所 有 元 组 ， 再 产生 $ 的 所 有 元 组 ， 
而 不 必 考虑 是 否 存在 重复 。 我 们 用 R 和 8 表示 生成 关系 尺 和 8 的 迁 代 器 ， 因 此 它们 是 查询 计 
划 中 并 操作 RUS 的 子 结 点 。 如 果 尺 和 $ 是 存储 的 关系 ， 那 么 迭代 器 尺 和 S 可 能 是 施加 于 RR 和 
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S 上 的 表 扫 描 操 作 ， 否 则 可 能 是 调用 其 他 迭代 髓 的 网 络 来 计算 尺 和 5 的 迭代 器 。 不 管 怎 样 ， 重 
点 是 我 们 有 了 可 用 的 R. Open( ) R. GetNext( ) 和 R. Close( ) 方法， 对 迭代 器 5 来 说 也 有 类 似 的 
方法 。 

这 一 并 操作 的 迭代 器 方法 在 图 4-4 中 进行 了 描述 。 巧 妙 之 处 在 于 方法 使 用 了 一 个 共享 变量 
CurRel， 它 是 R ZE S 取决 于 当前 正在 读 哪 一 个 关系 。 口 


Open(){ 
R. Open(); 
CurRe1: =R; 





} 
GetNext (){ 
IF (CurRel = R){ 
t: =R. GetNext(); 
IF (t< >Found)/* R 尚未 消耗 完 * / 
RETURN t; 

ELSE /* R 已 消耗 完 * /{ 
S. Open(); 
CurRe1: =S; 
} 





} 
/* 这 里 我 们 必须 读 Sr / 
RETURN S. GetNext(); 
/* 注意 ， 如 果 s 已 消耗 完 ，S. GetNext 将 会 返回 NotFound, X GetNext 来 说 这 也 是 正确 的 动作 * / 
} 
Close(){ 
R. Close(); 
S. Close(); 











图 4-4 用 和 迭代 器 丸和 3 构建 一 个 并 迭代 器 


4.2 一 赵 算 法 


我 们 现在 将 开始 学 习 查 询 优 化 中 一 个 非常 重要 的 问题 : 我们 怎样 执行 逻辑 查询 计划 中 的 每 
个 单独 的 步骤 (例如 ， 连 接 或 选择 )? 每 一 个 操作 符 的 算法 的 选择 是 将 逻辑 查询 计划 转变 成 物理 
查询 计划 过 程 中 的 一 个 必 不 可 少 的 部 分 。 关 于 各 种 操作 符 已 提出 了 很 多 算法 ， 它 们 大 体 上 分 为 
SR: 

1. 基于 排序 的 方法 (4.4 节 )。 

2. 基于 散 列 的 方法 (4.5 节 、9. 1 节 )。 

3. 基于 索引 的 方法 (4.6 节 )。 

另外 ， 我 们 可 以 将 操作 符 算法 按照 难度 和 代价 分 成 三 种 “等 级 ”: 

a) 一 些 方法 仅 从 磁盘 读 取 一 次 数据 ， 这 就 是 一 赵 (one-pass) 算 法 。 它 们 是 这 一 节 的 主题 。 它 
们 通常 要 求 操 作 的 至 少 一 个 操作 对 象 能 完全 装 人 人 内存， 尽管 存在 例外 ， 尤 其 是 像 4. 2.1 节 讨论 的 
选择 和 投影 。 

b) 一 些 方 法 处 理 的 数据 量 太 大 以 至 于 不 能 装 和 人 可 利用 的 内 存 , 但 又 不 是 可 想象 的 最 大 的 数 
据 集合 。 这 些 两 趟 算法 的 特点 是 首先 从 磁盘 读 一 遍 数据 ， 用 某 种 方式 处 理 ， 将 全 部 或 绝 大 部 分 写 
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回 磁盘 ， 然 后 在 第 二 趟 中 为 了 进一步 处 理 ， 再 读 一 遍 数 据 。 我 们 将 在 4.4 节 和 4.5 节 中 见 到 这 些 
算法 。 

c) 某 些 方 法 对 处 理 的 数据 量 没有 限制 。 这 些 方法 用 三 趟 或 更 多 趟 来 完成 工作 ， 它 们 是 对 两 
趟 算法 的 自然 的 递归 的 推广 。 我 们 将 在 4. 8 节 学 习 多 趟 方法 。 

这 一 节 中 ， 我 们 主要 讨论 一 趟 算法 。 然 而 ,无 论 在 这 一 节 中 还 是 在 后 面 ， 我 们 都 将 把 操作 符 
分 为 三 大 类 : 

1. 一 次 单个 元 组 ， 一 元 操作 。 这 类 操作 (选择 和 投影 ) 不 需要 一 次 在 内 存 中 装 人 整个 关系 ， 
甚至 也 不 需要 关系 的 大 部 分 。 这 样 ， 我 们 一 次 可 以 读 一 个 块 ， 使 用 内 存 缓冲 区 ， 并 产生 我 们 的 
输出 。 

2. 整个 关系 ， 一 元 操作 。 这 些 单 操作 对 象 的 操作 需要 一 次 从 内 存 中 看 到 所 有 或 大 部 分 元 组 ， 
因此 ， 一 趟 算法 局 限于 大 小 约 为 W( 内 存 中 可 用 缓冲 区 的 数量 ) 或 更 小 的 关系 。 这 里 我 们 考虑 的 
属于 这 一 类 的 操作 是 y( 分 组 操作 符 ) 和 8( 去 重 操作 符 ) 。 

3. 整个 关系 ， 二 元 操作 。 其 他 所 有 的 操作 可 以 归 为 这 一 类 : 并 、 交 、 差 、 连 接 和 积 的 集合 
形式 以 及 包 形 式 。 我 们 将 发 现 如 果 要 用 一 趟 算法 ,那么 这 类 操作 中 的 每 一 个 都 要 求 至 少 一 个 操 
作对 象 的 大 小 限制 在 MM 以 内 。 


4.2.1 一 次 单个 元 组 操作 的 一 趟 算法 

无 论 关 系 尺 能 否 被 内 存 容纳 ， 一 次 单个 元 组 的 运算 o(R) 和 7(R) 都 有 显而易见 的 算法 。 正 
如 图 4-5 所 示 ， 我 们 一 次 读 取 R 的 一 块 到 输入 缓冲 区 ， 对 每 一 个 元 组 进行 操作 ， 并 将 选 出 的 元 组 
或 投影 得 到 的 元 组 移 至 输出 缓冲 区 。 由 于 输出 组 
冲 区 可 能 是 其 他 操作 的 输入 缓冲 区 ， 或 正在 向 用 
户 或 应 用 发 送 数据 ， 因 而 我 们 不 把 输出 缓冲 区 算 
在 所 需 空间 内 。 因 此 ， 无 论 B 有 和 多大， 我 们 只 要 
求 输入 缓冲 区 满足 M1, 

这 一 过 程 的 磁盘 1/0 需求 取决 于 作为 操作 对 
象 的 关系 尺 是 怎样 提供 的 。 如 果 R 最 初 在 磁盘 上 ， Pen 输出 
那么 代价 就 是 执行 一 个 表 - 扫描 或 索引 - 扫描 所 缓冲 区 
需 代价 。 这 一 代价 已 在 4.1.5 节 中 讨论 过 ， 通常， 图 4-5 在 关系 RR 上 执行 选择 或 投影 运算 
如 果 玉 是 聚集 的 ， 代 价 就 是 了 ， 如 果 R 不 是 聚集 的 ， 代 价 就 是 T。 然 而 ， 当 执行 的 操作 是 一 个 选 
择 ， 且 其 条 件 是 比较 一 个 常量 和 一 个 带 索引 的 属性 时 ， 这 是 一 个 重要 的 例外 。 这 种 情况 下 ， 我 们 
可 以 使 用 索引 来 检索 R 所 在 块 的 一 个 子 集 ， 这 样 通常 会 显著 地 提高 执行 效率 。 


额外 的 缓冲 区 可 以 加 快 操作 

正如 图 4-5 所 示 ， 尽 管 一 次 单个 元 组 的 操作 只 通过 一 个 输入 缓冲 区 和 一 个 输出 缓冲 区 就 
可 以 实现 ， 但 如 果 我 们 分 配 更 多 的 缓冲 区 可 以 加 速 处 理 过 程 。 这 个 想法 最 初 在 2.3.2 节 中 出 
现 。 如 果 民 存储 在 柱 面 上 连续 的 块 中 ,那么 我 们 可 以 读 取 完整 的 柱 面 到 缓冲 区 ， 而 仅 为 每 一 
个 柱 面 付 出 了 一 个 块 的 查询 时 间 和 和 旋转 延 迟 代 价 。 类 似 地 ， 如 果 操 作 的 输出 可 以 存储 在 全 部 
的 柱 面 上 ， 我 们 在 写 上 几乎 不 会 浪费 时 间 。 




















4.2.2 整个 关系 的 一 元 操作 的 一 趟 算法 
现在 让 我 们 考虑 施加 于 整个 关系 上 而 非 施加 于 单个 元 组 上 的 一 元 操作 : 消除 重复 (68) 和 分 
组 (y) 。 
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消除 重复 . 

为 了 消除 重复 ， 我 们 可 以 一 次 一 个 地 读 取 尺 的 每 一 块 ， 但 是 对 每 一 个 元 组 ， 我 们 需要 判定 : 

1. 这 是 我 们 第 一 次 看 到 这 个 元 组 ， 这 时 将 它 复制 到 输出 。 

2. 我 们 从 前 见 过 这 个 元 组 ， 这 时 不 必 输 出 它 。 

为 支持 这 个 判定 ， 我 们 需要 为 见 过 的 每 一 个 元 组 在 内 存 中 保存 一 个 备份 ， 如 图 4-6 所 示 。 用 
一 个 内 存 缓冲 区 保存 R 的 元 组 的 一 个 块 ， 其 余 的 必 -1 个 缓冲 区 可 以 用 来 保存 目前 为 止 我 们 见 过 
的 每 个 元 组 的 一 个 副本 。 

当 存 储 已 经 见 过 的 元 组 时 ， 我 们 必须 注意 所 使 
用 的 内 存 数据 结构 。 我 们 可 以 简单 地 列 出 我 们 见 过 
的 所 有 元 组 。 当 考虑 中 的 一 个 新 元 组 时 ， 我 们 将 
它 与 迄今 为 止 看 到 的 所 有 元 组 比较 ， 如 果 它 与 这 些 
元 组 当中 的 任何 一 个 都 不 相等 ， 我 们 把 它 复制 到 输 
出 并 将 它 加 入 到 存在 于 内 存 中 的 我 们 所 看 到 的 元 组 
的 列表 中 。 

然而 ， 如 果 内 存 中 有 个 元 组 ， 每 一 个 新 元 组 





占用 的 处 理 器 时 间 与 n 成 比例 。 因 此 整个 操作 占用 MI 个 缓冲 区 ax 
的 处 理 器 时 间 与 x? 成 比例 。 由 于 n 可 能 会 非常 大 ， 
对 于 我 们 所 做 的 只 有 磁盘 VO 需要 大 量 时间 这 一 假 46 消除 重复 


设 来 说 ， 这 样 的 时 间 量 将 带 来 严重 的 问题 。 因 此 ， 我 们 需要 一 个 主 存 结构 ， 它 允许 我 们 增加 一 个 
新 元 组 并 能 够 辨别 一 个 给 定 的 元 组 是 否 存 在 ， 它 缓慢 地 依赖 于 元 组 数量 n 增长。 

例如 ， 我 们 可 以 使 用 具有 大 量 桶 的 散 列 表 或 某 种 形式 的 平衡 二 叉 查找 树 ”。 每 一 种 结构 除了 
需要 存储 元 组 的 空间 外 ， 还 需要 一 些 开 销 。 例 如 ， 一 个 主 存 散 列表 需要 一 个 桶 数组 和 连接 桶 内 元 
组 的 指针 空间 。 然 而 ， 所 需 额 外 空间 开销 与 存储 元 组 所 需 空 间 相 比 一 般 较 小 。 因 此 我 们 在 本 章 里 
面 忽略 了 这 种 开销 。 

基于 这 个 假设 ， 我 们 可 以 在 主 存 的 M-1 个 可 用 缓冲 区 存储 与 RR 的 轩 -1 个 块 所 能 容纳 的 一 
样 多 的 元 组 。 如 果 我 们 希望 R 的 每 个 不 同 的 元 组 的 一 个 副本 能 装 在 主 存 中 ， 那 么 B(5(R) ) 肯定 
不 能 超过 M -1。 因 为 我 们 预计 M 远 远大 于 1， 我 们 将 经 常用 到 的 这 个 规则 的 一 个 简单 近似 是 : 

B(8(R)) <M . 

注意 ， 通 常 在 没有 计算 出 68(R) 本 身 时 ， 我们 不 能 一 般 地 计算 出 8(R) 的 大 小 。 如 果 我 们 低估 
了 这 个 大 小 ， 而 B(6(R) ) 实 际 上 大 于 M， 那 么 我 们 将 为 系统 颠 艇 付出 惨重 的 代价 ， 因 为 保存 R 
中 不 同 元 组 的 块 必须 频繁 地 出 入 主 存 。 

分 组 : 

分 组 操作 yi 给 我 们 零 个 或 多 个 分 组 属性 以 及 可 能 的 一 个 或 多 个 聚集 属性 。 如 果 我 们 在 主 存 
中 为 每 一 个 组 (也 就 是 为 分 组 属性 的 每 一 个 值 ) 创建 一 个 项 ， 那 么 我 们 可 以 一 次 一 块 地 扫描 的 
元 组 。 每 个 组 的 项 包括 分 组 属性 的 值 和 每 个 聚集 的 一 个 或 多 个 累计 值 。 如 下 ; 

© (对 MIN(a) 或 MAX(a) 聚 集 来 说 ， 分 别 记录 组 内 迄今 为 止 见 到 的 任意 元 组 在 属性 c 上 的 

最 小 或 最 大 值 。 每 当 见 到 组 中 的 一 个 元 组 时 ， 如 果 合 适 ， 就 改变 这 个 最 小 值 或 最 大 值 。 
。 对 于 任意 COUNT 聚集 来 说 ， 为 组 中 见 到 的 每 个 元 组 加 1。 


© 关于 合适 的 内 存 数据 结构 的 讨论 ， 请 参见 A.V. Aho, J. E. Hopcroft # J. D. Ullman 的 《Data Structure and Algo- 
rithms》，Addison-Wesley ，1983。 特 别 地 ， 散 列 平均 花费 .0(n) 的 时 间 来 处 理 项 ,平衡 树 花费 0(nlogn) 的 时 间 ; 
这 两 者 都 能 足够 接近 我 们 的 线性 目标 。 
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e 对 SUM(a) 来 说 ， 如 果 a 不 为 NULL WE, 在 它 的 组 里 扫描 到 的 累加 值 上 增加 属性 a 
的 值 。 

© AVG(a) 的 情况 复杂 。 我 们 必须 保持 两 个 累计 值 : 组 内 元 组 个 数 以 及 这 些 元 组 在 c 上 的 值 
的 和 。 二 者 的 计算 分 别 与 我 们 为 COUNT 和 SUM 聚集 所 做 的 一 样 。 当 六 中 所 有 元 组 都 被 
扫描 后 ， 我 们 计算 总 和 和 个 数 的 商 以 得 到 平均 值 。 

当 玉 的 全 部 元 组 都 已 经 读 到 输入 缓冲 区 中 ,并 且 已 用 于 各 自 组 中 聚集 的 计算 ， 我 们 就 可 以 
通过 为 每 个 组 写 一 个 元 组 来 产生 输出 。 注 意 ， 直 到 扫描 最 后 一 个 元 组 后 ， 我 们 才 开始 为 y 操作 创 
建 输出 。 因 此 这 种 算法 并 不 太 适 合 迭代 器 结构 ; 在 GetNext 能 获得 第 一 个 元 组 之 前 ，Open 方法 必 
须 将 全 部 分 组 做 好 。 

为 了 使 每 一 个 元 组 在 内 存 的 处 理 过 程 更 有 效 ， 我 们 需要 使 用 一 个 内 存 数据 结构 来 帮助 我 们 
在 已 知 分 组 属性 值 时 找到 各 分 组 的 项 。 就 像 前 面 讨论 的 6 操作 那样 ， 通常 的 内 存 数据 结构 (如 散 
列表 和 平衡 二 又 检索 树 ) 能 发 挥 很 好 的 作用 。 然 而 我 们 应 该 记 住 ， 这 种 结构 的 查找 关键 字 只 能 是 
分 组 属性 。 





非 聚 做 数据 上 的 操作 
我 们 所 有 关于 操作 所 需 磁 盘 LO 数 的 计算 都 是 在 操作 对 象 是 聚 徐 的 这 一 假设 基础 上 进行 
的 预测 。 在 操作 对 象 尺 没有 聚 比 的 情况 下 (通常 较 军 见 ) ， 读 取 尽 的 全 部 元 组 可 能 需要 我 们 进 
行 T(R) 次 而 非 BCR) KMH IO。 然 而 请 注意 ， 任 何 作为 操作 结果 的 关系 总 是 可 以 被 设想 为 
聚 簇 的 ， 因 为 我 们 没有 理由 以 非 聚 化 的 形式 存储 临时 关系 。 


这 个 一 趟 算法 所 需 磁 盘 IO 数 是 8， 与 任何 一 元 运算 的 一 趟 算法 相同 。 尽 管 通常 情况 下 MM 将 
小 于 B, 但 所 需 内 存 缓冲 区 数 必 与 8 的 关系 不 是 任何 一 种 简单 的 形式 。 问 题 在 于 组 的 项 可 能 比 R 
的 元 组 长 一 些 或 短 一 些 ， 并 且 组 的 数目 可 能 是 等 于 或 小 于 上 元 组 的 数目 的 任意 一 种 情况 。 然 而 
大 多数 情况 下 ， 组 的 项 不 会 比 灵 的 元 组 长 ， 而 且 组 的 数目 远 小 于 元 组 数目 。 


4.2.3 二 元 操作 的 一 趟 算法 

现在 我 们 开始 讨论 二 元 操作 : 并 、 交 、 差 、 积 和 连接 。 为 了 区 分 这 些 操作 符 对 集合 和 对 包 的 
版 本 ,我 们 用 BAS 来 分 别 表示 包 和 集合， 例如 UB 是 求 包 的 并 集 ， 而 -5 是 求 集合 的 差 集 。 为 
了 简化 连接 的 讨论 ， 我 们 将 仅 考虑 自然 连接 。 将 属性 适当 地 重 命名 后 ， 等 值 连接 可 以 按照 相同 方 
式 实现 ， 并 且 theta - 连接 可 以 被 认为 是 在 积 或 等 值 连接 后 再 跟 上 在 等 值 连接 中 不 能 表达 的 条 件 。 

包 的 并 可 以 通过 一 种 非常 简单 的 一 趟 算法 计算 出 来 。 为 了 计算 RU 5S， 我 们 复制 元 组 R 的 每 
一 个 元 组 到 输出 ， 然 后 复制 S 的 每 一 个 元 组 ， 就 像 我 们 在 例 4.3 中 所 做 的 那样 。 磁 盘 LO 数 是 
BCR) +B(S) ， 正 如 操作 对 象 尺 和 3 上 的 一 趟 算法 所 必需 的 那样 ， 并 且 不 管 尺 和 $ 多 么 大 ,，M=1 
就 足够 了 。 

其 他 的 二 元 操作 需要 将 尺 和 S 中 较 小 的 那个 操作 数 读 到 内 存 中 并 且 建 立 一 个 合适 的 数据 结 
构 ， 就 像 4. 2. 2 节 中 讨论 的 那样 ， 使 元 组 不 仅 可 以 被 快速 插入 还 可 以 被 快速 检索 到 。 和 前 面 一 
样 ， 散 列表 或 平衡 树 就 可 以 满足 要 求 。 因 此 ， 在 关系 尺 和 5 上 用 一 趟 执行 一 个 二 元 操作 的 近似 需 
RE: 











min(B(R), B(S)) sM 
更 精确 地 讲 ， 一 个 缓冲 区 将 被 用 来 读 取 较 大 关系 的 块 ， 而 大 约 M 个 缓冲 区 用 来 容纳 整个 较 
小 的 关系 和 它 的 内 存 数 据 结 构 。 
现在 我 们 将 给 出 各 种 操作 的 细节 。 在 每 一 种 情况 下 ， 我 们 假定 R 是 两 个 关系 中 较 大 的 一 个 ， 
并 且 我 们 将 把 S 放 在 内 存 中 。 
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集合 并 

我 们 将 5 读 到 内 存 的 W -1 个 缓冲 区 中 并 且 建 立 一 个 查找 结构 ， 其 查找 关键 字 是 整个 元 组 。 
所 有 的 这 些 元 组 也 都 复制 到 输出 。 然 后 我 们 一 次 一 块 地 将 R 的 每 一 块 读 到 第 W 个 缓冲 区 。 对 于 
R 的 每 一 个 元 组 :， 我 们 观察 1 是 否 在 S 中 ， 如 果 不 在 ， 我 们 就 将 上 复制 到 输出 。 如 果 : 也 在 5 中 ， 
我 们 就 跳 过 to 

集合 交 

将 5 读 到 MM-1 个 缓冲 区 中 并 建立 将 整个 元 组 作为 查找 关键 字 的 查找 结构 。 读 取 R 的 每 一 个 
R, HEX R 的 每 个 元 组 上， 观察 上 是 否 也 在 $ 中 。 如 果 在 ,我 们 将 ; 复制 到 输出 ， 而 如 果 不 在 ， 
则 忽略 to 

集合 差 

既然 差 不 是 一 种 可 交换 的 ， REAK R- SAS- R, HARB RR 是 较 大 的 关系 。 在 
两 种 情况 下 ， 我 们 都 将 S 读 到 1 - 1 个 缓冲 区 中 并 建立 将 整个 元 组 作为 查找 关键 字 的 查找 结构 。 

ATHAR- ,S$S， 我 们 读 取 RR 的 每 一 个 块 并 且 检 查 块 中 的 每 一 个 元 组 :。 如 果 i 在 5 中， 那么 
忽略 与 如果: 不 在 SS 中， 则 将 1 复制 到 输出 。 

为 了 计算 5- sR， 我 们 还 是 读 取 RR 的 每 一 个 块 ， 并 依次 检查 每 一 个 元 组 :。 如 果 1 在 SS 中， 那 
么 我 们 从 主 存 中 $ 的 副本 里 删 掉 上， 而 如 果 上 不 在 $ 中 ， 则 我 们 不 做 任何 处 理 。 在 考 虚 完 R 的 每 
一 个 元 组 后 ， 我 们 将 S 中 剩余 的 那些 元 组 复制 到 输出 。 

包 交 

我 们 将 5 读 到 M -1 个 缓冲 区 中 ,但 是 我 们 把 每 一 个 不 同 的 元 组 与 一 个 计数 联系 起 来 ， 其 初 
值 是 该 元 组 在 5 中 出 现 的 次 数 。 元 组 上 的 多 个 副本 并 不 分 别 存储 。 相 反 地 我 们 存储 上 的 一 个 副本 
并 且 将 它 与 一 个 计数 联系 起 来 ， 计 数值 等 于 上 出现 的 次 数 。 

如 果 很 少 有 重复 的 话 ， 这 种 结构 将 占用 比 B(S) 块 稍 大 的 空间 ， 尽 管 结 果 经 常 是 5 被 压缩 。 
因此 ， 我 们 将 继续 假设 B(S) <M -1 足以 运行 一 趟 算法 ， 尽 管 这 个 条 件 只 是 一 个 近似 。 

接着 ， 我 们 读 取 届 的 每 一 块 ， 并 且 对 于 民 的 每 一 个 元 组 上， 我 们 观察 上 是 否 在 $ 中 出 现 。 如 
果 不 出 现 ， 那 么 我 们 忽略 1; 它 不 会 出 现在 交 中 。 然 而 ， 如 果 : 在 5 中 出 现 ， 并 且 与 上 对 应 的 计数 
仍 为 正 值 ， 那 么 我 们 输出 ;并 将 计数 减 1。 如 果 ES PH, HREM MRE ASO, BAR 
们 不 输出 与 我 们 在 输出 中 已 经 产生 的 i 的 副本 和 5 中 的 一 样 多 。 

až 

ATHA S-,R, RIK S 的 元 组 读 到 内 存 中 ， 并 且 像 我 们 在 计算 包 交 集 时 那样 统计 每 一 个 
不 同 的 元 组 出 现 的 次 数 。 当 我 们 读 取 丸 时 ， 对 每 一 个 元 组 :， 我 们 观察 上 OES 中 出 现 ， 如 果 
是 ， 那 么 我 们 将 与 之 对 应 的 计数 递减 1。 最 后 ， 我 们 将 内 存 中 计数 是 正 数 的 每 一 个 元 组 复制 到 输 
出 ， 并 且 我 们 复制 它 的 次 数 等 于 其 计数 。 

ATHAR-S, RIEK S 的 元 组 读 到 内 存 中 ， 并 且 统 计 每 一 个 不 同 的 元 组 出 现 的 次 数 。 
当 我 们 读 取 R 的 元 组 时 ， 我们 可 以 把 具有 计数 是 c 的 元 组 上 看 作 是 不 将 :复制 到 输出 的 e 个 理由 。 
也 就 是 说 ， 当 我 们 读 取 R 的 一 个 元 组 上 时 ， 我 们 观察 上 是 否 在 $ 中 出 现 。 如 果 不 出 现 ， 那 么 我 们 
将 上 复制 到 输出 。 如 果 上 确实 在 $ 中 出 现 ， 那 么 我 们 看 与 上 对 应 的 计数 c 的 当前 值 。 如 果 =0, 
那么 我 们 将 上 复制 到 和 输出。 如果 c >0， 那 么 不 将 上 复制 到 输出 ， 但 是 将 c 值 减 1。 

积 
将 $ 读 到 主 存 的 W -1 个 缓冲 区 中 ， 不 需要 特殊 的 数据 结构 。 然 后 读 取 妨 的 每 一 个 块 ， 并 且 
对 丸 中 的 每 一 个 元 组 上 1， 将 上 与 主 存 中 S 的 每 一 个 元 组 连接 。 在 每 一 个 连接 而 成 的 元 组 一 形成 后 
即将 其 输出 。 
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对 下 的 每 一 元 组 ,这 种 算法 都 可 能 占用 相当 多 的 处 理 器 时 间 ， 因 为 每 一 个 这 样 的 元 组 必须 
和 装 满 元 组 的 M-1 个 块 相 匹配 。 然 而 ,输出 所 占 空间 也 很 大 ， 而 输出 每 个 元 组 的 时 间 很 小 。 

自然 连接 

在 这 一 连接 算法 和 其 他 连接 算法 中 ， 我 们 沿袭 惯例 ， 即 R(X， 几 与 5(Y，Z) 连接， 了 表示 
ALS 的 所 有 公共 属性 , X 是 R 的 所 有 不 在 5 的 模式 中 的 属性 ,并且 Z 是 5 的 所 有 不 在 R 的 模式 中 
的 属性 。 我 们 继续 假设 S 是 较 小 的 关系 。 要 计算 自然 连接 ， 执行 以 下 步 又， 

1. 读 取 S 的 所 有 元 组 ， 并 且 用 它们 构造 一 个 以 Y 的 属性 为 查找 关键 字 的 内 存 查找 结构 。 将 
内 存 的 M -1 块 用 于 这 一 目的 。 

2. 将 RR 的 每 一 块 读 到 内 存 中 剩 下 的 那 一 个 缓冲 区 中 。 对 于 RR 的 每 一 个 元 组 :， 利 用 查找 结构 
找到 5 中 与 上 在 了 的 所 有 属性 上 相符 合 的 元 组 。 对 于 5 中 每 一 个 匹配 的 元 组 ， 将 它 与 1 连接 后 形 
成 一 个 元 组 ， 并且 将 结果 元 组 移 到 输出 。 

和 所 有 一 趟 的 二 元 操作 算法 一 样 ， 这 一 算法 读 取 操作 对 象 需要 使 用 B(R) + 8(5S) 次 磁盘 1/O。 
只 要 B(S) <M -1 或 近似 地 B(S) <M， 它 就 能 正常 工作 。 

我 们 不 打算 讨论 自然 连接 以 外 的 连接 。 记 住 ， 等 值 连接 以 与 自然 连接 基本 相同 的 方式 执行 
但 是 我 们 必须 考虑 两 个 关系 的 “相等 "属性 可 能 有 不 同 的 名 字 这 一 事实 。 不 是 等 值 连接 的 theta - 
连接 可 以 用 在 等 值 连 接 或 积 之 后 加 以 选择 来 代替 。 


4.2.4 习题 


习题 4. 2. 1 对 于 下 面 的 每 一 个 操作 ， 利 用 这 一 节 中 描述 的 算法 为 其 书写 一 个 选 代 器 : a) 消除 重复 (8) ; b) 
分 组 (yz) ; RAH; d) HABE; e) 集 合 差 ; f) 包 交 ; g) 包 差 ; h) 积 ; i) 自然 连接 。 

习题 4.2.2 ”对 于 习题 4. 2. 1 中 的 每 一 个 操作 符 ， 判 别 它 是 否 是 阻塞 的 ， 阻 塞 意味 着 直到 所 有 的 输入 都 恋人 
以 后 才能 产生 第 一 个 输出 。 换 名 话说， 阻塞 操作 符 唯 一 可 行 的 选 代 器 是 由 Open 完成 所 有 重要 的 工作 。 

! 习题 4. 2. 3 给 出 下 列 连接 操作 符 的 一 趟 算法 。 
a)RER<.S， 假 设 尺 可 装 人 内 存 ( 见 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》5. 2.7 节 提 及 的 外 连接 的 定义 ) 。 
b)REXS, 假设 5 可 装 人 内 存 。 
c)REX,S, 假设 R 可 装 入 内 存 。 
d)RtrnS， 假设 $ 可 装 和 内存 。 
e)RXS, BERTRAN. 
HRD<S, 假设 R 可 装 和 内存 ( 见 《 数 据 库 系统 基础 教程 ( 原 书 第 3 版 )》 习 题 2. 4. 8 半 连 接 的 定义 ) 。 
8)RCD<S, BRS TRAN. 
h) RDS, 假设 可 装 人 内存 ( 见 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》 习 题 2. 4. 9 反 半 连 接 的 定义 ) 。 
DRD<S, 假设 5 可 装 人 内 存 。 

习题 4.2.4 图 4-9 概括 了 这 一 节 和 下 一 节 中 的 算法 的 内 存 和 磁盘 VO 需求 。 然 而 ， 它 假设 所 有 操作 对 象 都 
是 聚集 的 。 如 果 一 个 或 两 个 操作 对 象 不 是 聚集 的 ， 图 中 的 项 将 怎样 变化 ? 


4.3 人情 套 循环 连接 


在 讨论 下 一 节 中 更 为 复杂 的 算法 之 前 ， 我 们 将 注意 力 转向 一 个 称 为 “ 嵌 套 循环 ”连接 的 连接 
操作 符 算法 系列 。 这 些 算 法 ， 在 某 种 意义 来 说 需要 “一 趟 半 ”， 因 为 在 其 中 的 各 种 算法 中 ， 两 个 
操作 对 象 中 有 一 个 的 元 组 仅 读 取 一 次 ， 而 另 一 个 操作 对 象 将 重复 读 取 。 妃 套 循环 连接 可 以 用 于 
任何 大 小 的 关系 ; 没有 必要 要 求 有 一 个 关系 必须 能 装 人 内 存 中 。 


4.3.1 基于 元 组 的 藤 套 循环 连接 
骨 套 循环 系列 中 最 简单 的 形式 是 其 中 的 循环 是 对 所 涉及 关系 的 各 个 元 组 来 进行 的 。 在 这 个 
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我 们 称 为 基于 元 组 的 崇 套 循环 连接 算法 中 ， RUTHER R(X, Y)PSS(Y, Z) RF: 
For S 中 的 每 个 元 组 s DO 
For R 中 的 每 个 元 组 r DO 


IF r 与 s 连接 形成 元 组 t THEN 
output t; 


如 果 我 们 不 注意 关系 丸和 8 的 块 的 缓冲 方法 ,那么 这 种 算法 需要 的 磁盘 VO 可 能 多 达 T(R) 
T(S) 。 然 而 ， 在 很 多 情况 下 这 种 算法 都 可 以 修改 ， 使 代价 低 得 多 。 一 种 情况 是 当 我 们 可 以 使 用 
R 的 连接 属性 上 的 索引 来 查找 与 给 定 的 5 元 组 匹配 的 尺 元 组 时 ， 这 样 的 匹配 不 必 读 取 整 个 关系 
R。 我 们 在 4. 6. 3 节 讨 论 基于 索引 的 连接 。 第 二 种 改进 更 加 注重 R 和 5 的 元 组 在 各 个 块 中 的 分 布 
方式 ， 并 且 在 我 们 执行 内 层 循环 时 ， 要 尽 可 能 多 地 使 用 内 存 ， 以 减少 磁盘 LO 的 数目 。 我 们 将 在 
4.3.3 节 考 虑 基于 块 的 藤 套 循环 连接 形式 。 


4.3.2 ”基于 元 组 的 散 套 循环 连接 的 迭代 器 

媒 套 循环 连接 的 一 个 优点 是 它 非 常 适 合用 于 和 迭代 器 结构 ， 因 此 ， 就 像 我 们 将 在 5.7. 3 节 中 看 
到 的 那样 ， 某 些 情 况 下 它 能 使 我 们 避免 将 中 间 关 系 存储 到 磁盘 上 。R m5 的 迭代 器 很 容易 用 丸和 
S 的 和 迭代 器 构造 起 来 ， 我 们 用 R. Open( ) 等 表示 这 些 迭 代 器 ， 就 像 4.1.6 PAH, MARE 
FERS 3 个 迭代 函数 的 代码 如 图 4-7 所 示 ， 它 假定 关系 丸和 3 都 是 非 空 的 。 





Open( ){ 
R. Open(); 
S. Open(); 
s: =S. GetNext(); 
} 
GetNext (){ 
REPEAT { 
r: =R. GetNext(); 
IF(r =NotFound){/* 对 于 当前 的 S 来 说 R 已 消耗 完 * / 
R. Close(); 
s: =S. GetNext); 
IF(s =NotFound)RETURN; /* R 和 S 都 已 消耗 完 * / 
R. Open(); 
r: =R.GetNext(); 
} 
} 
UNTIL(r 与 s 能 连接 ); 
RETURN r 和 s 的 连接 ; 
} 
Close(){ 
R. Close(); 
S. Close(); 


| 
图 4.7 AFTER REO OR A eR RE 


4.3.3 ZFRHRERMERAE 
如 果 我 们 按 以 下 步骤 计算 Rm%5S， 我 们 可 以 改进 4.3. 1 PAE TIA SHER 
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1. 对 作为 操作 对 象 的 两 个 关系 的 访问 均 按 块 组 织 。 

2. 使 用 尽 可 能 多 的 内 存 来 存储 属于 关系 S 的 元 组 ，$ 是 外 层 循环 中 的 关系 。 

第 1 点 确保 了 当 在 内 层 循 环 中 处 理 关 系 尺 的 元 组 时 ， 我 们 可 以 用 尽 可 能 少 的 磁盘 IO 来 读 取 
Re 第 2 点 使 我 们 不 是 将 读 到 的 RR 的 每 一 个 元 组 与 5 的 一 个 元 组 连接 ， 而 是 与 能 装 人 内 存 的 尽 可 
能 多 的 5 元 组 连接 。 

像 4.2.3 节 中 一 样 ， 让 我 们 假设 B(S) <B(R), 但 是 现在 让 我 们 再 假定 8(S) >M; 也 就 是 
说 ， 任 何 一 个 关系 都 不 能 完整 地 装 人 内 存 。 我 们 重复 地 将 M -1 个 块 读 到 内 存 缓冲 区 中 。 为 $ 在 
内 存 中 的 元 组 创建 一 个 查找 结构 ， 它 的 查找 关键 字 是 R 和 5 的 公共 属性 。 然 后 我 们 浏览 R 的 所 
有 块 ， 依 次 读 取 每 一 块 到 内 存 的 最 后 一 块 中 。 我 们 在 读 人 RR 的 一 个 块 后 将 块 中 所 有 元 组 与 3 在 内 
存 中 的 所 有 块 的 所 有 元 组 进行 比较 。 对 于 那些 能 连接 的 元 组 ,我 们 输出 连接 得 到 的 元 组 。 这 种 算 
法 的 嵌 套 循环 结构 可 以 在 图 4-8 中 看 到 ， 在 那里 我 们 更 加 正式 地 描述 此 算法 。 图 4-8 中 的 算法 有 
时 被 称 作 " 旷 套 块 连接 ”。 我 们 将 继续 将 其 简单 地 称 为 误 套 循环 连接 ， 因 为 它 是 嵌 套 循环 思想 在 
实践 中 使 用 最 广泛 的 实现 形式 。 | 





FOR S 中 每 个 大 小 为 M 一 1 BRAY chunk 
将 这 些 块 读 人 主 存 缓冲 区 中 ; 
将 其 元 组 组 织 为 查找 结构 ， 查 找 关键 字 是 R 和 的 公共 属性 ; 
FOR R 的 每 个 块 b 
将 b 读 人 主 存 ; 
FOR $k b 的 每 一 个 元 组 t DO BEGIN 
Hih s 在 主 存 中 的 元 组 中 那些 能 与 t 连接 的 元 组 ; 
输出 与 这 些 元 组 中 每 一 个 的 连接 ; 








图 4-8 嵌 套 循环 连接 算法 


图 4-8 的 程序 似乎 有 三 重典 大 ,循环 。 然而， 如 果 我 们 从 正确 的 抽象 层次 上 看 代码 ， 实 际 上 仅 
有 两 重 循环 。 第 一 重 循环 或 外 层 循 环 是 对 5 元 组 进行 的 ， 其 他 的 两 层 循环 对 R 的 元 组 进行 。 然 
而 ， 我 们 将 此 过 程 表达 为 两 层 循环 是 为 了 强调 我 们 访问 R 的 元 组 的 顺序 不 是 任意 的 。 相 反 地 ， 
我 们 需要 一 次 一 块 地 处 理 这 些 元 组 (第 二 层 循环 的 作用 ) ， 并 且 在 继续 移动 到 下 一 个 块 之 前 ， 我 
们 要 处 理 当 前 块 内 的 所 有 元 组 (第 三 层 循环 的 作用 ) 。 

例 4.4 假定 B(R) =1000 H B(S) =500, 并 令 MN=101。 我 们 将 使 用 100 个 内 存 块 来 按照 大 
小 为 100 块 的 chunk 对 S 进行 缓冲 ， 因 此 图 4-8 中 的 外 层 循 环 需 迭 代 S 次 。 每 一 次 迭代 中 ， 我 们 
用 100 个 磁盘 IO 读 取 S 的 chunk， 并 且 在 第 二 层 循环 中 我 们 必须 用 1000 个 磁盘 IO 来 完整 地 读 
RR, A, 磁盘 1/0 的 总 的 数量 是 5500。 

TEM, SURE RAS 的 角色 ， 算 法 使 用 的 磁盘 YO 要 略 多 一 些 。 我 们 将 在 外 层 循环 中 
迭代 10 次 ， 并 且 每 一 次 迭代 使 用 600 次 磁盘 IO， 总 共 是 6000 次 。 一 般 来 说 ， 在 外 层 循环 中 使 
用 较 小 的 关系 略 有 优势 。 口 


4.3.4 藤 套 循环 连接 的 分 析 

例 4.4 的 分 析 可 以 重复 应 用 在 任何 BCR)、B(5) 和 MM 上 。 假设 5 是 较 小 的 关系 ，chunk 数 或 外 
层 循环 的 迭代 次 数 是 B(S)/(M -1)。 每 一 次 迭代 时 ,我们 读 取 5 AY M1 ERAT R HI B(R) 个 块 。 
RE, 磁盘 IO 的 数量 是 B(S)(M -1+B(R))A(M-1), 或 者 B(S) +(B(S)B(R))/(M-1)。 
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设想 M、B(S) 和 B(R) 都 很 大 ,但 M 是 其 中 最 小 的 ， 上 面 公式 的 一 个 近似 值 是 B(5S)B(R)/ 
必 。 也 就 是 说 ， 代 价 与 两 个 关系 的 大 小 的 乘积 再 除 以 可 用 内 存 容量 得 到 的 商 成 比例 。 当 两 个 关系 
都 很 大 时 我 们 可 以 做 得 比 撕 套 循环 连接 好 得 多 。 尽 管 我 们 应 当 注 意 对 于 像 例 4.4 中 那样 的 相当 小 
的 实例 来 说 ， 舱 套 循 环 连 接 的 代价 并 不 比 一 趟 连接 的 代价 (对 于 该 例子 来 说 是 1500 次 磁盘 IO) 
KB, SRE, WRB S)<M-1, REIMER 4.2.3 节 中 的 一 趟 连接 算法 是 一 样 的 。 

尽管 柑 套 循环 连接 通常 并 不 是 可 能 的 连接 算法 中 最 有 效 的 算法 ， 我们 应 该 注意 在 一 些 早 期 
的 关系 DBMS 中 ， 它 是 唯一 可 用 的 方法 。 即 使 今天 ， 某 些 情况 下 在 更 有 效 的 连接 算法 中 ,仍然 需 
要 把 它 作为 一 个 子 程序 ， 例 如 ， 当 各 个 关系 中 的 大 量 元 组 在 连接 属性 上 具有 相同 的 值 时 。 关 于 峙 
套 循环 是 必 不 可 少 的 一 个 例子 ， 参 见 4.4.6 节 。 


4.3.5 迄今 为 止 的 算法 的 总 结 

图 4-9 中 给 出 了 4.2 节 和 4.3 节 中 我 们 已 经 讨论 过 的 算法 的 内 存 和 磁盘 YO BR. y 和 8 的 
内 存 需 求实 际 上 比 给 出 的 更 复杂 ， 并 且 M =8B 仅 是 一 个 大 致 的 近似 。 对 于 y，M 随 组 的 数量 增 
长 ， 而 对 于 6，M 随 不 同 的 元 组 的 数量 增长 。 























图 4-9 一 趟 算法 和 嵌 套 循环 算法 的 内 存 以 及 磁盘 VO 需求 


4. 3.6 习题 
习题 4.3.1 (Be BCR) =B(S) =10 000, 并 且 有 =1000。 计 算 谷 套 循环 连接 的 磁盘 LO 代价 。 
习题 4. 3.2 ”对 于 习题 4. 3. 2 中 的 关系 ， 使 用 壬 套 循 环 连接 算法 计算 RS 时 我 们 需要 什么 样 的 M 值 ， 磁 盘 
IO 才 不 超过 : a)200 000; 1b)25 000; !c)15 000, 
习题 4. 3. 3 ”给 出 基于 块 的 佬 套 循环 连接 形式 的 三 个 迭代 器 函数 。 
1 习题 4. 3. 4 WME RR SEZ, W 4-7 的 和 迭代 器 将 无 法 正确 地 工作 。 重 写 这 些 函 数 ， 使 得 即使 一 个 关系 为 
空 或 两 个 关系 都 是 空 时 ， 它 们 仍 能 工作 。 
1 习题 4. 3. 5 WME RAS 都 是 非 聚 集 的 ， 似 乎 结 套 循环 连接 将 需要 大 约 T(R)T(S)/M 次 磁盘 1/O 时 间 。 
a) 你 怎样 做 才能 明显 好 于 这 个 代价 ? 
b) MF RAS 中 只 有 一 个 是 非 聚集 的 ， 你 怎样 执行 嵌 套 循环 连接 ? 考虑 两 种 情况 : 较 大 的 关系 是 非 聚集 
BABE) EER SE 


4.4 基于 排序 的 两 趟 算法 


现在 ， 我 们 开始 学 习 在 关系 上 执行 关系 代数 操作 的 多 趟 算法 ， 这 里 的 关系 大 于 4. 2 节 的 一 趟 
算法 能 够 处 理 的 关系 。 我 们 的 重点 在 两 趟 算法 上 ， 其 中 来 自 于 操作 对 象 关 系 中 的 数据 被 读 到 内 
存 ， 以 某 种 方式 处 理 ， 再 写 回 到 磁盘 ， 然 后 重新 读 取 磁 盘 以 完成 操作 。 我 们 可 以 自然 地 将 这 种 想 
法 扩展 到 任何 趟 数 ， 其 中 数据 被 多 次 读 取 到 内 存 。 然 而 ,我 们 将 重点 放 在 两 趟 算法 上 ， 这 是 
因为 : 

a) 即使 对 于 很 大 的 关系 ， 两 遍 通常 也 就 足够 了 。 

b) 将 两 趟 算法 推广 到 多 趟 并 不 难 ; 我 们 将 在 4.4.1 节 讨 论 这 些 扩展 ， 并 在 4. 8 节 中 做 普遍 性 
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的 讨论 。 

我 们 开始 用 排序 操作 符 7 的 实现 来 阐述 普通 的 方法 : 对 于 BCR) > M 的 关系 RR， 将 它 分 成 大 
小 为 用 的 chunk 并 排序 ， 然 后 以 某 种 对 于 任意 子 表 在 任意 时 刻 只 占用 一 个 内 存 块 的 方式 ， 对 排 
好 序 的 子 表 进 行 排序 。 


4.4.1 两 阶段 多 路 归并 排序 
假设 我 们 有 M 个 内 存 缓冲 区 来 进行 排序 ， 可 以 通过 两 趟 的 算法 对 非常 大 的 关系 进行 排序 ， 
这 种 算法 叫 两 阶段 多 路 归并 排序 (Two-Phase，Mnultiway Merge-Sort, TPMMS) 。TPMMS 用 如 下 的 方 
式 对 关系 R 进行 排序 : 
。 阶段 1: 不 断 地 将 R 中 的 元 组 放 入 MN 个 缓冲 区 ， 利 用 主 存 排序 算法 对 它们 进行 排序 ， 并 
将 排序 得 到 的 子 表 存 到 外 存 中 。 
。 阶段 2: 将 排 好 序 的 子 表 进行 归并 。 在 这 个 阶段 ， 至 多 能 对 M -1 个 有 序 的 子 表 进 行 归 
并 ,这 就 限制 了 R 的 大 小 。 我 们 为 每 个 有 序 子 表 分 配 一 个 输入 的 缓冲 块 ， 并 使 用 一 个 组 
冲 块 用 于 输出 。 图 4-10 给 出 了 对 缓冲 区 的 使 用 方法 。 指 向 每 个 输入 块 的 指针 表示 排 好 序 
但 尚未 被 移 到 输出 块 的 第 一 个 元 素 。 我 们 将 有 序 的 子 表 用 如 下 的 方式 归并 为 一 个 包含 所 


有 记录 的 列表 。 
1. 找到 所 有 子 表 中 第 一 个 元 素 的 最 小 值 。 输入 缓冲 区 ， 每 一 块 对 应 一 个 已 排 好 序 的 子 表 
因为 比较 是 在 内 存 中 完成 的 ， 因 此 线性 的 搜索 就 
足够 了 ， 搜 索 执 行 的 机 器 指令 的 数量 与 子 表 的 数 指向 第 一 
量 成 正比 。 但 是 ， 如 果 我 们 需要 的 话 ， 可 以 利用 “个 未 被 选 
基于 “优先 队列 ”2 的 方法 ， 使 找到 子 表 第 一 个 元 ”中 的 记录 


素 的 最 小 值 的 时 间 与 子 表 数 量 的 对 数 成 正比 。 的 指针 


2. 将 最 小 的 元 素 移 到 输出 块 中 的 第 一 个 可 DCE PB 

用 的 位 置 记录 中 选择 最 小 
的 作为 输出 

3. 如 果 输 出 块 已 满 ， 则 将 它 写 和 硬盘， 并 
对 内 存 中 该 缓冲 块 进行 重新 初始 化 ， 以 便 存放 下 
一 个 输出 块 。 输出 

4. 如 果 刚 被 取出 最 小 元 素 的 缓冲 块 的 元 素 缓冲 区 
已 耗 尽 ， 将 同一 个 有 序 子 表 中 的 下 一 个 块 读 入 到 | 


元 素 耗 尽 的 缓冲 块 。 如 果子 表 中 没有 块 了 ， 则 使 图 4-10 多 路 归并 在 主 存 中 的 组 织 情况 
它 的 缓冲 区 保持 空 ， 并 在 以 后 的 选取 最 小 的 列表 
的 第 一 个 元 素 的 操作 中 不 对 它 进行 考虑 。 

为 了 使 TPMMS 能 正常 工作 ， 子 表 不 能 超过 M -1 个 。 假 设 尺 占用 中 个 块 。 因 为 每 个 子 表 包 
含 MM 个 块 ， 于 是 子 表 的 数目 为 BA/MN。 因 此 我 们 要 求 B/M<M-1, 或 者 B<M(M -1)( 或 者 近似 
表示 为 BSM). 

算法 要 求 我 们 在 第 一 趟 时 读 入 B8 个 块 ， 此 外 还 有 B 次 磁盘 LO 用 于 写 回 排 好 序 的 子 表 。 每 
个 子 表 在 第 二 个 阶段 都 会 被 再 次 读 人 到 内 存 ， 因 此 总 的 磁盘 WO 次 数 为 38。 如 果 按 照 惯例 ， 我 
们 不 计算 将 结果 写 回 到 磁盘 的 代价 (因为 此 结果 可 能 是 用 于 流水 线 操作 而 不 用 写 回 到 磁盘 ) ， 那 
4 3B 就 是 排序 操作 符 > 所 需 的 总 的 代价 。 但 是 ， 如 果 我 们 需要 将 结果 保存 到 磁盘 ， 那 么 总 的 代 
价 就 是 4B。 
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例 4.5 假设 块 的 大 小 是 64k 字 节 ， 而 我 们 有 1G 的 内 存 。 那 么 我 们 可 以 提供 的 MW 16k, 
于 是 ， 要 能 对 一 个 有 B 个 块 的 关系 进行 排序 ， 则 要 求 B 的 大 小 不 超过 (16k)”=2”。 因 为 块 的 大 
小 是 64k =2*, 那么 大 小 不 超过 2” 字 节 或 4T 字 节 的 关系 都 能 进行 排序 。 口 

例 4.5 告诉 我 们 即便 是 使 用 普通 的 机 器 ，2PMMS 可 以 利用 两 趟 对 相当 大 的 关系 进行 排序 。 
但 是 ， 如 果 你 有 更 大 的 关系 ， 相 同 的 思想 可 以 递归 式 地 使 用 。 将 关系 分 成 M(M -1) 个 片段 ,使 
用 2PMMS 对 其 中 的 每 一 个 片段 进行 排序 ， 并 将 排序 的 结果 作为 第 三 趟 需要 用 到 的 子 表 。 这 个 思 
想 可 以 被 扩展 到 更 多 的 趟 数 。 


4.4.2 利用 排序 去 除 重复 . 

为 了 用 两 趟 执行 8(R) 操 作 ， 我 们 像 在 2PMMS 中 一 样 在 子 表 中 将 RR 的 元 组 排序 。 在 第 二 趟 
中 ， 我 们 将 采取 与 2PMMS 相同 的 方法 ， 在 可 用 内 存 中 为 每 个 有 序 子 表 分 配 一 个 缓冲 块 ， 并 保持 
一 个 输出 缓冲 块 。 但 是 ， 我 们 将 在 第 二 趟 时 不 断 地 复制 每 一 块 的 第 一 个 未 考虑 的 元 组 上 到 输出 并 
忽略 与 它 相 同 的 所 有 元 组 ， 而 不 是 进行 排序 。 我 们 将 i 拷贝 到 输出 块 ， 并 将 输入 块 中 所 有 的 :1 删 
除 。 因 此 ,输出 块 对 R 中 的 任何 一 个 元 组 都 只 有 一 个 实例 ; 而 它们 是 按 序 产生 的 。 如 果 缓 冲 块 
已 满 或 者 输入 块 已 空 ， 我 们 用 2PMMS 中 相同 的 方法 进行 处 理 。 

和 平常 一 样 忽略 对 输出 的 处 理 ， 执 行 这 个 算法 的 磁盘 WO 数 与 排序 一 样 ， 也 是 38(R)。 这 
个 数字 可 以 与 4. 2. 2 节 中 的 一 趟 算法 的 B(R) 进 行 比较 。 另 一 方面 ， 我 们 可 以 用 两 趟 算法 处 理 比 
一 趟 算法 所 能 处 理 的 文件 大 得 多 的 文件 。 对 2PMMS 来 说 ,与 一 趟 算法 的 B<M 相 比 ， 要 使 两 趟 
算法 可 行 , 需要 使 B< MM。 换 言 之 ,用 两 趟 算法 计算 5(R) 仅 需 要 VBR 个 内 存 块 ， 而 不 是 
B(R) 个 内 存 块 。 


4.4.3 利用 排序 进行 分 组 和 聚集 

yz(R) 的 两 趟 算法 与 8(R) 或 是 2PMMS 的 算法 非常 相似 。 我 们 将 它 概括 如 下 : 

1. 将 尺 的 元 组 每 次 读 取 M 块 到 内 存 中 。 用 工 的 分 组 属性 作为 排序 关键 字 ， 对 每 W 块 排序 。 
将 每 一 个 排 好 序 的 子 表 写 到 磁盘 。 

2. 为 每 一 个 子 表 使 用 一 个 主 存 缓冲 区 ， 并 且 首 先 将 每 一 个 子 表 的 第 一 个 块 装 人 其 缓冲 区 。 

3. 在 缓冲 区 可 以 获得 的 第 一 个 元 组 中 反复 查找 排序 关键 字 ( 分 组 属性 ) 的 最 小 值 。 这 个 最 小 
fio 成 为 下 一 分 组 ， 我 们 为 它 : 

a) 准备 在 这 个 分 组 的 列表 过 上 计算 所 有 的 聚集 。 就 像 4. 2. 2 节 中 那样 ， 使 用 计数 和 求 和 来 代 
BOE 

b) 检 查 每 个 排序 关键 字 为 v 的 元 组 ， 并 且 累 计 所 需 聚 集 。 

c) 如 果 一 个 缓冲 区 空 了 ， 则 用 同一 子 表 中 的 下 一 个 块 蔡 换 它 。 

当 不 再 有 排序 关键 字 为 v 的 元 组 时 ， 输 出 一 个 由 工 的 分 组 属性 和 对 应 的 我 们 已 经 为 这 个 组 计 
算出 的 聚集 值 构成 的 元 组 。 

正如 6 算法 那样 ，y 的 这 种 两 趟 算法 使 用 3B(R) 次 磁盘 IO， 而 且 只 要 BCR) <M’ 就 可 以 正 
常 工作 。 


4. 4.4 基于 排序 的 并 算法 

当 需 要 包 的 并 时 ，4. 2. 3 节 中 简单 地 复制 两 个 关系 的 一 趟 算法 就 可 以 。 这 一 算法 的 正常 工作 
与 操作 对 象 的 大 小 无 关 ， 因 而 我 们 不 必 考 虑 Us 的 两 趟 算法 。 然 而 ， 只 有 当 至 少 一 个 关系 小 于 可 
用 的 主 存 时 ，U 的 一 趟 算法 才 起 作用 ， 因 此 ， 我 们 应 该 考虑 集合 并 操作 的 两 趟 算法 。 正 如 我 们 
将 要 在 4.4.5 节 看 到 的 那样 ， 我 们 提出 的 方法 对 于 集合 和 包 的 交 和 差 也 都 适合 。 为 计算 RUS, 
我 们 对 2PMMS 做 如 下 的 修改 : 


112 P-R MEFRAKA 





1. 在 第 一 趟 的 时 候 ， 创 建 关 系 尺 和 3 的 排序 子 表 。 

2. 为 六 和 SS 的 每 个 子 表 使 用 一 个 内 存 缓冲 区 ， 用 对 应 子 表 的 第 一 块 初始 化 各 缓冲 区 。 

3. 重复 地 在 所 有 缓冲 区 中 查找 剩余 的 第 一 个 元 组 上。 将 上 复制 到 和 输出， 并且 从 缓冲 区 中 删除 
的 所 有 的 副本 (如 果 玉 和 3S 都 是 集合 则 至 多 有 两 个 副本 ) 。 当 输入 缓冲 区 变 空 或 者 输出 缓冲 变 满 
时 ,采用 与 2PMMS 相同 的 方法 进行 处 理 。 

RTAS, RAS 的 每 一 个 元 组 被 两 次 读 进 内 存 ， 一 次 是 当 子 表 创 建 时 ， 第 二 次 是 作为 子 表 
的 一 部 分 。 元 组 还 写 回 磁盘 一 次 ， 作 为 新 建 子 表 的 一 部 分 。 因 此 ， 磁 盘 VO 的 代价 是 3(B(R)+ 
B(S))o 

因为 我 们 对 每 一 个 子 表 需 要 一 个 缓冲 区 ， 输 出 也 需要 一 个 缓冲 区 ， 所 以 只 要 两 个 关系 的 子 
表 总 数 不 超过 M - 1。 这 样 ， 近 似 的 ， 两 个 关系 的 大 小 之 和 不 能 超过 喀 ; BI BCR) +B(S) <M’, 


4.4.55 基于 排序 的 交 和 差 算法 
无 论 是 要 计算 集合 形式 还 是 包 形 式 ， 除 了 我 们 在 处 理 排序 子 表 前 部 的 元 组 上 的 副本 时 有 区 别 
以 外 ， 算 法 基本 上 与 4.4.4 节 中 的 算法 相同 。 对 每 一 种 算法 ， 我 们 不 断 考虑 所 有 缓冲 区 内 剩余 的 
元 组 中 最 小 的 元 组 ;。 我 们 用 如 下 的 方式 产生 结果 ， 并 将 输入 缓冲 里 所 有 :的 拷贝 移 除 。 
。 对 于 集合 交 ， 如 果 t 在 R 和 5S 中 都 出 现 就 输出 :+。 
。 对 于 包 交 ， 输 出 i KRECE RAS 中 出 现 的 最 小 次 数 。 注 意 ， 如 果 两 个 计数 中 有 一 个 
为 0， 就 不 输出 与 也 就 是 说 ， 当 i 在 一 个 或 两 个 关系 中 未 出 现时 就 不 输出 它 。 
。 对 于 集合 差 ,，R-s;S， 当 且 仅 当 i 出 现在 RR 中 但 不 在 S 中 时 输出 to 
。 TEŽ, R-S, Wh t KAE t ER 中 出 现 的 次 数 减 去 在 5 中 出 现 的 次 数 。 当 然 ， 
如 果 t 在 5 中 出 现 的 次 数 至 少 等 于 在 RR 中 的 出 现 次 数 ， 那么 根本 就 不 要 输出 to 
对 于 包 的 操作 ， 有 个 微妙 的 地 方 需要 注意 。 当 计算 的 出 现 次 数 时 ， 可 能 一 个 输入 缓冲 块 的 
所 有 剩余 的 元 组 都 是 :。 如 果 是 这 样 ， 在 子 表 的 下 一 块 中 可 能 还 有 更 多 的 1。 因 此 ， 当 一 个 抉 中 仅 
有 :剩余 时 ， 我 们 必须 读 人 子 表 的 下 一 块 继续 计算 ; 的 次 数 。 这 个 过 程 可 能 需要 在 若干 个 块 中 继 
续 ， 还 可 能 需要 对 若干 个 子 表 进行 。 
这 一 类 算法 的 分 析 和 4. 4. 4 节 中 对 集合 并 算法 所 做 分 析 相 辐 : 
© 3(B(R) + BCS) ) 次 磁盘 O0, 
。 为 使 算法 能 工作 ， 近 似 地 要 求 B(R) +B(S) <M’, 


4.4.6 基于 排序 的 一 个 简单 的 连接 算法 

将 排序 用 于 连接 大 的 关系 的 方法 有 多 种 。 在 讨论 连接 算法 之 前 ， 我 们 来 看 一 个 在 计算 连接 
时 可 能 出 现 的 问题 ， 但 这 个 问题 不 是 迄今 为 止 考 虑 过 的 二 元 操作 的 问题 。 在 计算 连接 时 ， 两 个 关 
系 中 在 连接 属性 上 具有 相同 的 值 ， 因 而 需要 同时 放 人 内 存 中 的 元 组 ， 但 这 可 能 超过 内 存 所 能 容 
纳 的 数量 。 极 端的 例子 是 当 连 接 属性 仅 有 一 个 值 时 ， 这 时 一 个 关系 中 的 每 个 元 组 与 另 一 关系 的 
每 个 元 组 都 能 连接 。 这 种 情况 下 ， 除 了 对 在 连接 属性 上 值 相 等 的 两 个 元 组 集合 进行 内 套 循环 连 
接 外 ， 就 真 的 没有 其 他 选择 了 。 

为 了 避免 面 对 这 种 情形 ， 我 们 可 以 尽量 减少 为 算法 中 其 他 方面 使 用 的 内 存 ， 因 而 可 以 用 大 量 组 
冲 区 保存 具有 给 定 连 接 属性 值 的 元 组 。 这 一 节 中 我 们 将 要 讨论 一 个 算法 ， 它 可 以 为 具有 共同 的 值 的 
元 组 连接 获取 最 大 量 的 可 用 的 缓冲 区 。 在 4.4.8 节 中 ， 我 们 考虑 另 一 个 使 用 较 少 的 磁盘 VO 的 ， 基 
于 排序 的 算法 ， 但 该 算法 在 大 量 的 元 组 在 连接 属性 上 具有 共同 的 值 时 可 能 会 出 现 问题 。 

已 知 将 要 连接 的 关系 RA, Y)AS(Y, Z), 并 且 已 知 有 用 块 内 存 用 作 缓 冲 区 ， 我 们 做 下 面 
的 事情 ， 

1. 用 了 作为 排序 关键 字 ， 使 用 2PMMS X} R 进行 排序 。 


RAF BUA 113 





2. 类 似 地 对 S 做 排序 。 

3. 归并 排 好 序 的 尺 和 5S。 我 们 仅 用 两 个 缓冲 区 ， 一 个 给 RR 的 当前 块 ， 另 一 个 给 5 的 当前 块 。 
重复 执行 以 下 步 又: 

a) 在 当前 RR 和 5 的 块 的 前 端 查找 连接 属性 了 的 最 小 值 y。 

b) 如果 y 在 另 一 个 关系 的 前 部 没有 出 现 ， 那 么 删除 具有 排序 关键 字 y 的 元 组 。 

c) 和 否则 ， 找 出 两 个 关系 中 具有 排序 关键 字 y 的 所 有 元 组 。 如 果 需 要 ， 从 排序 的 尺 和 /或 $ 中 
读 取 块 ， 直 到 我 们 确定 每 一 个 关系 中 都 不 再 有 y 的 副本 。 最 多 可 以 用 MM 个 缓冲 区 来 做 这 件 事情 。 

d) 输出 通过 连接 只 和 S 中 具有 共同 的 了 Y- 值 y 的 元 组 所 能 形成 的 所 有 元 组 。 

e) 如 果 一 个 关系 在 内 存 中 已 没有 未 考虑 的 元 组 ， 就 重新 加 载 为 那个 关系 而 设 的 缓冲 区 。 

例 4.6 让 我 们 考虑 例 4. 4 的 关系 尺 和 $。 回 想 一 下 这 两 个 关系 分 别 占 用 1000 个 块 和 500 个 
k, HEA MW = 101 个 内 存 缓冲 区 。 当 我 们 在 一 个 关系 上 使 用 2PMMS 时 ， 对 每 一 个 块 我 们 使 用 4 
次 磁盘 WO， 每 个 阶段 有 两 次 。 那 么 ,对 和 5 排序 我 们 要 使 用 4(B( 尽 ) +B(S)) KERLO, 或 
6000 次 磁盘 1/0, 

当 我 们 归并 尺 和 S 以 得 到 连接 的 元 组 时 ， 我 们 用 另外 的 1500 次 磁盘 1/0 来 第 五 次 读 取 丸和 
S 的 每 一 个 块 。 这 个 归并 中 ， 我 们 通常 仅 需 要 101 个 内 存 块 中 的 两 个 。 然 而 ， 如 果 需 要 ， 我 们 可 
以 使 用 所 有 101 个 块 来 容纳 具有 公共 的 Y- 值 y 的 尺 和 5 的 元 组 。 因 此 ， 只 要 对 于 任意 的 y, R 
F SF YEK y 的 元 组 占用 的 空间 不 超过 101 块 ， 这 就 足够 了 。 

注意 ， 这 个 算法 执行 的 磁盘 IO 总 数量 是 7500， 而 例 4. 4 中 嵌 套 的 循环 连接 的 是 5500。 然 而 ， 
内 套 循环 连接 是 一 个 天 生 的 二 次 方 的 算法 ， 占 用 的 时 间 与 B(R)B(5) 成 比例 ， 而 排序 连接 具有 线性 
的 VO 代价 ， 占 用 的 时 间 与 BCR) +B(CS) 成 比例 。 仅 仅 是 因为 常数 因子 以 及 较 小 的 示例 关系 (每 一 
个 关系 只 不 过 比 一 个 能 完全 装 人 分 配 的 缓冲 区 中 的 关系 大 5 或 10 倍 ) ， 嵌 套 循环 连接 才 更 可 取 。 口 


4.4.7 简单 的 排序 连接 的 分 析 

就 像 我 们 在 例 4. 6 中 注意 到 的 那样 ， 对 于 操作 对 象 的 每 一 个 块 ，4. 4. 6 节 中 的 算法 执行 5 次 
磁盘 IO。 我 们 还 需要 考虑 为 了 使 简单 的 排序 连接 能 够 运行 ，M 需要 多 大 。 主 要 的 限制 在 于 我 们 
AREAS TE RAS 上 执行 两 阶段 多 路 归并 排序 。 就 像 我 们 在 4. 4. 1 节 看 到 的 那样 ， 为 执行 这 些 排 
序 ， 我 们 需要 BCR) <M’ 和 B(S) <M?。 男 外 ， 我 们 要 求 具有 一 个 公共 的 了 - 值 的 所 有 元 组 必须 
全 部 装 入 MSRP, BS: 

。 简单 排序 连接 使 用 5(B(R) + BCS) ) 次 磁盘 0。 

。 为 了 能 工作 ， 它 要 求 B(R) <M’ HB(S) <M’, 

© 它 也 要 求 用 于 连接 的 属性 具有 公共 的 值 的 所 有 元 组 必须 能 全 部 装 入 M 个 缓冲 区 中 。 


4.4.8 一 种 更 有 效 的 基于 排序 的 连接 

如 果 我 们 不 必 担 心 在 连接 属性 上 具有 公共 的 值 的 元 组 太 多 ， 那 么 我 们 可 以 将 排序 的 第 二 阶 
段 和 连接 本 身 合并 ， 这 样 对 每 个 块 而 言 可 以 节约 两 次 磁盘 IO。 我 们 称 这 个 算法 为 排序 - 连接 ; 
还 有 一 些 其 他 的 名 字 如 “归并 -连接 ”和 “排序 -归并 - 连接 "也 指 这 个 算法 。 为 了 用 个 缓冲 区 
计算 R(X, Y)MSCY, Z), RI: 

1. 用 了 作为 排序 关键 字 ， 为 R 和 5 创建 大 小 为 M 的 排序 的 子 表 。 

2. 将 每 一 个 子 表 的 第 一 块 调 进 缓冲 区 ;我 们 假设 总 共 不 超过 M 个 子 表 。 

3. 重复 地 在 所 有 子 表 的 第 一 个 可 以 得 到 的 元 组 中 查找 最 小 的 了 Y- 值 y。 识 别 两 个 关系 中 具有 
Y- 值 y 的 所 有 元 组 ， 如 果子 表 数 少 于 玉 ， 可 能 使 用 M 个 缓冲 区 中 的 一 部 分 来 容纳 这 些 元 组 。 输 
RAS PRAKASH Y- 值 的 所 有 元 组 的 连接 。 如 果 一 个 子 表 的 缓冲 区 处 理 完毕 ， 则 重新 将 磁 

盘 上 的 块 装 人 其 中 。 
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例 4.7 让 我 们 再 次 考虑 例 4. 4 中 的 问题 : 使 用 101 个 缓冲 区 连接 关系 R 和 SS， 它们 分 别 有 
1000 块 和 500 块 。 我 们 将 尺 分 成 10 SFR, 将 5 分 成 5 个 子 表 ， 每 一 个 子 表 长 度 为 100， 并 且 对 
它们 排序 。 然 后 我 们 用 15 个 缓冲 区 来 容纳 各 子 表 的 当前 块 。 如 果 我 们 面临 着 许多 元 组 都 有 某 
个 固定 的 了 Y- 值 的 情况 ， 我 们 可 以 用 剩 下 的 86 个 缓冲 区 来 存储 这 些 元 组 。 

我 们 为 数据 的 每 个 块 执行 三 次 磁盘 IO。 其 中 两 次 是 为 了 创建 排序 的 子 表 。 然 后 ， 在 多 路 归 
并 过 程 中 ， 每 一 个 排序 子 表 的 每 一 块 被 再 次 读 取 到 内 存 中 。 因 此 ， 总 的 磁盘 YO 数 是 4500。 O 

这 个 排序 连接 算法 在 能 够 使 用 时 比 4. 4. 6 节 中 的 算法 更 有 效 。 就 像 我 们 在 例 4. 7 中 所 看 到 的 
那样 ， 磁盘 IO 的 数目 是 3(B8(R) +B(S) ) 。 我 们 可 以 在 几乎 和 前 面 算法 中 一 样 多 的 数据 上 执行 
这 个 算法 。 排 序 子 表 的 长 度 是 用 块 ， 而且 两 个 关系 总 的 子 表 数 至 多 是 M, Ast, B(R)+B(S)< 
M 就 足够 了 。 


4. 4.9 基于 排序 的 算法 的 总 结 
图 4-11 中 的 表格 是 对 4.4 节 中 我 们 讨论 过 的 算法 的 分 析 。 就 像 在 4.4.6 节 和 4.4. 8 节 讨 论 过 
的 那样 ， 连 接 算法 对 在 连接 属性 上 有 相同 的 值 的 元 组 个 数 有 限制 。 如 果 超 出 了 限制 ， 我 们 将 采用 























REMMER, 
操作 符 大 致 需 要 的 MM 磁盘 LO 章节 
T, h Ô VB 3B 4.4.1. 4.4.2, 
4.4.3 

u, N, - VBR) + BS) | 3(B(R) + B(S)) | 4.4.4, 4.4.5 

ba ,/max(B(R), B(S)) | 5(B(R) + B(S)) | 4.4.6 

pq VBR) + BS) |3(B(R)+B(S)) | 448 

图 4-11 基于 排序 算法 的 内 存 和 磁盘 IO 需求 

4.4.10 习题 


习题 4. 4. 1 ”使 用 这 一 节 中 描述 的 算法 ， 为 下 面 的 每 个 操作 编写 迭代 器 : a) 分 组 (y,); b) 集 合 交 ; c) 包 差 ; 
d) 自然 连接 ; e) 消除 重复 (5) 。 

习题 4. 4. 2 如果 每 个 关系 有 20 000 个 块 ， 并 且 使 用 基于 排序 的 两 趟 算法 ， 对 于 以 下 运算 : a)d, b)yo c) 
一 个 二 元 操作 ， 比 如 连接 或 并 我 们 各 需要 多 少 内 存 ? 

习题 4. 4. 3 ”对 于 习题 4. 2. 3 中 类 连接 操作 符 中 的 每 一 个 ， 描 述 一 种 基于 排序 的 两 趟 算法 。 

习题 4.4.4 如 果 B(R) =B8(S) = 10 000 并 且 M =500， 以 下 情况 中 磁盘 IO 的 需求 是 多 少 : a) 简单 的 排 
序 -连接 ; b)4.4.8 节 中 更 有 效 的 排序 -连接 ; c) 集 合并 。 

! 习题 4. 4. 5 ”假设 这 节 中 所 描述 算法 的 第 二 趟 不 需要 所 有 的 M 个 缓冲 区 ， 因 为 子 表 数 小 于 M, RIED 
过 使 用 额外 的 缓冲 区 来 节省 磁盘 0? 

! 习 题 4.4.6 在 例 4.6 中 我 们 讨论 了 分 别 有 1000 块 和 500 块 的 两 个 关系 尺 和 3 的 连接 ，M =101。 但 是 ， 如 
果 有 许多 给 定 值 的 元 组 使 得 任何 关系 的 元 组 都 不 能 适合 内 存 ， 我 们 就 需要 增加 额外 的 磁盘 IO。 计 算 磁 盘 
LO 的 总 数 ， 如 果 : 

a RAMA Y-I, FERR R H, BFE S 中 ( 记 住 了 是 连接 属性 或 属性 组 ) 。 
b) 有 5 个 Y- 值 ， 在 每 个 关系 中 几乎 相等 。 


O 从 技术 上 来 说 ,我 们 可 以 使 每 个 子 表 的 长 度 为 101 KR, 并且 R 的 最 后 一 个 子 表 有 91 k, S 的 最 后 一 个 子 表 有 96 
R, 但 代价 完全 相同 。 


Gt BMA 115 








c) 有 10 个 了 - 值 ， 在 每 个 关系 中 几乎 相等 。 

1 习题 4. 4. 7 用 4.4.8 节 中 更 有 效 的 排序 - 连接 重复 习题 4.4. 6。 

1! 习题 4. 4. 8 有时， 如 果 我 们 将 最 后 一 个 子 表 留 在 内 存 中 ， 可 能 会 节省 部 分 磁盘 IO。 为 利用 这 一 效果 而 应 
使 用 少 于 1M 块 的 子 表 ， 这 甚至 也 是 有 意义 的 。 这 种 方法 能 节省 多 少 磁 盘 LO? 

! 习题 4. 4. 9 ”假设 记录 可 以 大 于 块 ， 也 就 是 说 ,我 们 可 以 有 跨 块 记录 。 基 于 排序 算法 的 内 存 需 求 将 怎样 
变化 ? 


4.5 基于 散 列 的 两 趟 算法 


有 一 个 基于 散 列 的 算法 系列 来 处 理 与 4.4 节 中 相同 的 问题 。 所 有 这 些 算 法 的 基本 思想 如 下 。 
如 果 数 据 量 太 大 以 至 于 不 能 存 人 内 存 缓冲 区 中 ， 就 使 用 一 个 合适 的 散 列 关键 字 散 列 一 个 或 多 个 
操作 对 象 的 所 有 元 组 。 对 于 所 有 通常 的 操作 ， 都 有 一 种 选择 散 列 关键 字 的 方法 ， 它 能 使 在 我 们 执 
行 该 操作 时 需要 一 起 考虑 的 所 有 元 组 分 配 到 相同 的 桶 。 

然后 ， 我 们 通过 一 次 处 理 一 个 桶 (或 者 在 二 元 操作 运算 的 情况 下 ， 通 过 一 次 处 理 具 有 相同 散 
列 值 的 一 对 桶 ) 的 方式 执行 操作 。 实 际 上 ， 我 们 已 经 减 小 了 操作 对 象 的 大 小 ， 减 小 的 比例 等 于 桶 
的 数目 ， 它 的 数量 大 致 为 M。 注 意 ，4.4 节 中 基于 排序 的 算法 通过 预 处 理 也 获得 了 一 个 因子 M， 
尽管 排序 和 散 列 这 两 种 方法 达到 这 一 相似 比例 的 方法 各 不 相同 。 


4.5.1 通过 散 列 划分 关系 

首先 我 们 回顾 接受 关系 丸 并 使 用 个 缓冲 区 将 刃 划分 成 大 小 大 致 相等 的 M - 1 个 桶 的 方式 。 
我 们 将 假设 是 散 列 函数 ， 并且 h 将 RR 的 整个 元 组 作为 参数 (也 就 是 说 ,RR 的 所 有 属性 都 是 散 列 
关键 字 的 一 部 分 ) 。 我 们 将 每 一 个 桶 和 一 个 缓冲 区 联系 起 来 。 最 后 一 个 缓冲 区 用 来 每 次 一 块 地 装 
入 RR 的 块 。 块 中 的 每 个 元 组 ;被 散 列 到 桶 h(t) 并 且 被 复制 到 适当 的 缓冲 区 中 。 如 果 缓 冲 区 满 了 ， 
我 们 就 将 它 写 到 磁盘 并 且 为 同一 个 桶 初始 化 男 一 个 块 。 最 后 ， 对 于 每 个 桶 的 最 后 一 块 ， 如 果 它 不 
空 的 话 ， 我 们 就 把 它 写 到 磁盘 。 图 4-12 更 详细 地 描述 这 一 算法 。 





用 M-1 个 空 的 缓冲 区 初始 化 M1 个 桶 ; 
FOR 关系 R 的 每 个 块 b DO BEGIN 
Hik b EAE M 个 缓冲 区 中 ; 
FOR b 中 的 每 个 元 组 t DO BEGIN 
IF AG h(t) 的 缓冲 区 中 没有 容纳 t 的 空间 THEN 
BEGIN 
将 该 缓冲 区 复制 到 磁盘 ; 
用 一 个 新 的 空 块 初始 化 该 缓冲 区 ; 
END; 
将 七 复制 到 桶 h(t) 的 缓冲 区 中 ; 
END; 
END; 
FOR 每 个 桶 DO 
IF 此 桶 的 缓冲 块 非 空 THEN 
将 该 缓冲 区 写 到 磁盘 ; 








图 4-12 ”将 一 个 关系 划分 到 1 - 1 个 桶 中 


4.5.2 基于 散 列 的 消除 重复 算法 
现在 ， 对 于 各 种 可 能 需要 两 趟 算法 的 关系 代数 操作 ， 我 们 来 考虑 基于 散 列 的 算法 的 细节 。 首 
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先 考 虑 重复 的 消除 ， 即 操作 OCR). RE 4-12, RIE R BOB) M-1 个 桶 。 注 意 ， 相 同 元 组 t 
的 两 个 副本 将 散 列 到 同一 个 桶 中 。 因 此 ， 我 们 可 以 一 次 检查 一 个 桶 ， 在 该 桶 中 独立 地 执行 5， 并 
且 把 6(R,) 的 并 作为 结果 ， 其 中 R; 是 R 中 散 列 到 第 i 个 桶 的 那 一 部 分 。4. 2. 2 节 中 的 一 趟 算法 可 
以 用 来 依次 去 除 每 个 RR, 中 的 重复 ， 并 将 产生 的 唯一 元 组 写 回 磁盘 。 
只 要 每 一 个 R; 小 到 能 装 人 内 存 因而 允许 使 用 一 趟 算法 ， 这 个 方法 就 可 行 。 因 为 我 们 可 以 假 
设 散 列 函 数 疡 将 尽 划 分 到 大 小 相同 的 桶 中 ， 那 么 每 一 个 灵 的 近似 大 小 为 B(R)/M -1 个 块 。 如 果 
这 一 块 数 小 于 等 于 MM， 即 B(R) < (M(M -1)， 那 么 基于 散 列 的 两 趟 算法 就 可 行 。 事 实 上 ， 就 像 
我 们 在 4.2.2 节 讨 论 的 那样 ， 只 要 每 个 桶 中 不 同 元 组 的 数量 能 被 M 个 缓冲 区 容纳 就 可 以 。 所 以 ， 
一 个 保守 的 估计 是 BCR) <M? (UK M AM - 1 本 质 上 相同 )， 和 5 的 基于 排序 的 两 趟 算法 一 样 。 
磁盘 IO 的 数量 也 与 基于 排序 的 算法 相似 。 当 我 们 散 列 元 组 时 ,我们 读 取 R 的 每 个 块 一 次 ， 
并 且 将 每 个 桶 的 每 个 块 写 到 磁盘 上 。 然 后 在 针对 各 个 桶 的 一 趟 算法 中 ， 我 们 再 次 读 取 每 一 个 桶 
的 每 一 个 块 。 因 此 ， 磁盘 LO 的 总 数量 是 3B(R) 。 


4.5.3 基于 散 列 的 分 组 和 聚集 算法 

为 了 执行 y,(R) 操 作 ， 我 们 也 是 首先 将 R 的 所 有 元 组 散 列 到 M -1 个 桶 中 。 然 而 为 了 确保 
同一 分 组 的 所 有 元 组 最 终 都 在 同一 个 桶 内 ,我们 选择 的 散 列 函 数 依 赖 于 表 工 中 的 分 组 属性 。 

将 中 分 到 桶 中 以 后 ， 接 下 来 ， 我 们 可 以 用 4. 2. 2 节 中 y 的 一 趟 算法 依次 处 理 每 一 个 桶 。 和 我 
们 在 4.5.2 节 对 6 的 讨论 一 样 ， 只 要 B(R) 有 P， 我 们 就 可 以 在 内 存 中 处 理 每 一 个 桶 。 

然而 ， 在 第 二 趟 中 ， 我 们 在 处 理 每 一 个 桶 时 仅 需 要 每 组 一 个 记录 。 因 此 ， 即 使 桶 的 大 小 大 于 
M， 只 要 桶 内 所 有 分 组 的 记录 需要 的 缓冲 区 数 不 超 过 凡 ， 我 们 就 可 以 在 一 趟 中 处 理 该 桶 。 因 此 ， 
如 果 分 组 很 少 ， 那 么 我 们 实际 上 能 处 理 的 关系 尺 可 能 比 B(R) <M’ 规则 所 指出 的 更 大 。 另 一 方 
面 ， 如 果 以 超过 了 分 组 的 数量 ， 那 么 ， 我 们 不 能 填充 所 有 的 桶 。 所 以 ， 作 为 MM 的 一 个 函数 ,RR 
的 大 小 的 实际 限制 很 复杂 ,但 B(R) sM 是 一 个 保守 的 人 和 估计。 最后， 和 5 一样， 我 们 观察 到 y 的 
磁盘 IO 数 是 3B(R)。 


4.5.4 ”基于 散 列 的 并 、 交 、 差 算法 

当 操 作 是 二 元 的 时 ， 我 们 必须 保证 使 用 相同 的 散 列 函 数 来 散 列 两 个 操作 对 象 的 元 组 。 例 如 ， 
为 了 计算 RU sS， 我们 将 RAS 各自 散 列 到 MM 一 1 个 桶 ， AU R, Ra, ©, Rua MS, S, 
Sw_1。 然 后 ， 对 于 所 有 的 i， 我 们 计算 R AS, 的 集合 并 ， 并且 输出 结果 。 注 意 ， 如 果 一 个 元 组 : 
TER ALS 中 都 出 现 ， 那 么 对 于 某 ;， 我 们 在 R, 和 5, 中 都 将 发 现 :。 这 样 ， 当 我 们 计算 这 两 个 桶 的 
FET, RITHAM E i 的 一 个 副本 ， 不 可 能 将 重复 引入 结果 中 。 对 于 Us 而 言 ，4. 2.3 节 中 简单 
的 包 - 并 算法 胜 于 执行 这 一 操作 的 任何 其 他 方法 。 

为 了 计算 RR 和 5 的 交 或 差 ， 我 们 像 计 算 集 合并 时 一 样 创 建 2(M -1) 个 桶 ， 并 且 在 每 对 对 应 
的 桶 上 运用 适当 的 一 趟 算法 。 注 意 ， 所 有 这 些 一 趋 的 算法 需要 BCR) +B(S) 次 磁盘 IO。 在 这 个 
数目 上 ， 我 们 还 必须 加 上 每 个 块 的 两 次 磁盘 IO， 这 是 用 来 散 列 两 个 关系 中 的 元 组 并 将 桶 存储 到 
磁盘 上 ， 一 共 是 3(B(R) +B(S) ) 次 磁盘 TO。 

为 了 使 算法 可 行 ， 我 们 必须 能 一 趟 计算 R 和 5, 的 并 、 交 或 差 ，R, AS, 的 大 小 分 别 约 为 
BCR)A-1I 和 BCS)AN 一 1。 回 忆 一 下 ， 这 些 操 作 的 一 趟 算法 要 求 较 小 的 操作 对 象 至 多 占用 M - 
1 个 块 。 因此， 基于 散 列 的 两 趟 算法 近似 地 要 求 min(B(R), B(S)) <M’, 

4.5.5 散 列 连接 算法 

为 了 使 用 基于 散 列 的 两 趟 算法 计算 RA, YAS, Z), 我 们 所 要 做 的 与 4.5.4 节 中 讨论 的 

其 他 二 元 操作 几乎 一 样 。 唯 一 的 区 别 是 我 们 必须 用 连接 属性 了 作 散 列 关键 字 。 这 样 我 们 就 能 确 
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定 ， 如 果 丸 与 $ 的 元 组 能 连接 ， 那 么 它们 必然 出 现在 具有 某 个 i 值 的 对 应 的 桶 R, 和 S, 中 。 所 有 
对 应 桶 对 的 一 个 一 趟 连接 最 后 完成 这 个 我 们 称 为 散 列 连接 。 的 算法 。 

例 4.8 让 我 们 再 次 讨论 例 4.4 中 的 两 个 关系 尺 和 5S， 它们 的 大 小 分 别 为 1000 块 和 500 块 ， 
并 且 有 101 个 内 存 缓冲 区 是 可 用 的 。 我 们 可 以 将 每 一 个 关系 散 列 到 100 个 桶 中 ， 所 以 一 个 桶 的 平 
均 大 小 对 于 尺 是 10 个 块 ， MESHES 个 块 。 因 为 较 小 的 数 5 远 远 小 于 可 得 到 的 缓冲 区 的 数量 ， 
我 们 预计 在 每 一 个 桶 对 上 执行 一 趟 连接 不 会 有 困难 。 

当 散 列 到 桶 中 时 ， 读 取 尺 和 S 共 需 要 1500 次 磁盘 IO， 将 所 有 的 桶 写 到 磁盘 又 需要 1500 x, 
执行 对 应 桶 的 一 赵 连 接 时 再 次 将 每 一 个 桶 对 读 到 内 存 需 要 第 三 个 1500。 因 此 ， 需 要 的 磁盘 VO 
数 是 45300， 和 4. 4.8 节 中 高 效 的 排序 连接 一 样 。 口 

我 们 可 以 对 例 4. 8 进行 推广 而 得 到 如 下 结论 : 

。 散 列 连接 需要 3(B(R) + B(5) ) 次 磁盘 10 来 完成 它 的 任务 。 

。 只 要 近似 地 有 min(B(R), B(S)) < ， 两 趟 散 列 连接 算法 就 是 可 行 的 。 

后 一 点 的 操作 对 象 与 其 他 二 元 操作 相同 : 每 一 个 桶 对 中 必须 有 一 个 能 全 部 装 入 M -1 个 缓冲 
区 中 。 


4.5.6 节省 一 些 磁盘 1/O 

在 第 一 趟 时 ， 如 果 可 用 内 存 比 容纳 每 一 个 桶 的 一 个 块 所 需 内 存 更 多 , 那么， 我 们 有 可 能 能 节 
省 磁盘 0。 一 个 选择 是 为 每 一 个 桶 使 用 若干 块 ， 并 且 将 它们 整体 写 出 到 磁盘 中 连续 的 块 上 。 严 
格 地 说 ， 这 项 技术 不 能 节省 磁盘 VO， 但 是 它 使 得 LO 执行 得 快 一 些 ， 因 为 我 们 写 磁盘 时 能 减少 
寻 道 时 间 和 旋转 延迟 时 间 。 

然而 ， 有 一 些 技巧 曾 被 用 来 避免 将 一 些 桶 中 内 容 写 到 磁盘 并 且 接 着 再 次 读 它们 。 其 中 最 有 
效 的 技巧 ， 称 为 混合 散 列 连 接 ， 它 的 工作 方式 如 下 。 一 般 地 ， 假 设 我 们 要 做 连接 RmS, ASE 
较 小 的 关系 ， 我 们 需要 建立 个 桶 ， 这 里 的 上 远 远 小 于 可 用 的 内 存 履 。 当 我 们 散 列 S 时 ， 我 们 可 
以 选择 将 个 桶 中 的 m 个 完全 保留 在 内 存 中 ， 而 对 于 其 他 上 - m 个 桶 中 的 每 一 个 ， 则 仅 保留 一 个 
块 。 只 要 内 存 中 的 桶 的 预计 大 小 加 上 其 他 每 个 桶 的 一 个 块 不 超过 M; 即 

mB CS). k-m<M (4-1) 

我 们 就 能 努力 做 到 这 一 点 。 解 释 一 下 ， 一 个 桶 的 预期 大 小 是 B(S)Ak， 并且 有 m 个 桶 在 内 存 中 。 

现在 ， 当 我 们 读 取 另 一 个 关系 R 的 元 组 ， 以 将 这 个 关系 散 列 到 桶 中 时 ， 我 们 在 内 存 中 保留 : 

1. S$ 的 m 个 从 未 写 到 磁盘 的 桶 ， 以 及 

2. RR 的 km 个 桶 中 每 一 个 的 一 块 ， 这-m 个 桶 对 应 的 5 桶 是 被 写 到 磁盘 上 的 。 

如 果 R 的 一 个 元 组 i 散 列 到 最 开始 的 m 个 桶 中 的 一 个 里 ， 那 么 我 们 立刻 将 它 和 相应 的 S - 桶 的 
元 组 连接 ， 就 好 像 正 在 做 一 趟 散 列 连接 那样 。 和 一 趟 散 列 连接 一 样 ， 为 了 加 速 这 个 连接 ，$ 在 内 存 
中 的 各 个 桶 有 必要 组 织 成 某 种 有 效 的 查找 结构 。 如 果 上 散 列 到 对 应 的 S - 桶 位 于 磁盘 上 的 某 个 桶 中 ， 
那么 和 基于 散 列 的 两 趟 连接 一 样 ，: 被 送 到 该 桶 在 内 存 中 的 块 中 ， 而 且 最 终 将 移 到 磁盘 上 。 

在 第 二 趟 中 ， 我 们 像 通常 一 样 连接 六 和 的 相应 的 桶 。 然 而 ， 不 必 对 留 在 内 存 中 的 $ 桶 的 相 
应 桶 对 做 连接 ， 因 为 这 些 桶 对 已 经 被 连接 而 且 结 果 也 已 输出 。 

对 于 留 在 内 存 的 $ 桶 和 相应 的 尺 - 桶 中 的 每 一 个 块 ， 节 省 的 磁盘 IO 的 数目 等 于 2。 因 为 在 
内 存 中 的 桶 的 比率 为 mA， 所 以 IO 节省 为 2(m/E)(B(R) + B8(S))。 因 此 ,我们 肯定 会 问 在 满 


O AMR, RE BO -连接 ”专门 指 4.2.3 节 中 一 趟 连接 算法 的 一 个 变种 ， 其 中 用 一 个 散 列 表 作为 内 存 中 的 查找 
结构 。 这 时 ， 这 里 描述 的 两 趟 散 列 - 连接 算法 就 称 作 “划分 散 列 - 连接 ”。 
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足 等 式 (4-1) 的 约束 前 担 下 ， 如 何 最 大 限度 地 增 大 mko SARAH, BR meal, M kR 
能 小 。 

直观 的 论证 如 下 。 内 存 缓冲 区 中 除了 上 -到 个 以 外 的 所 有 缓冲 区 都 可 以 用 来 容纳 8 在 内 存 中 
的 元 组 ， 并 且 这 样 的 元 组 越 多 ， 磁 盘 IO 的 数量 越 少 。 因 此 ， 我们 想 使 上:， 即 桶 的 总 数量 最 小 。 
我 们 通过 使 每 个 桶 在 能 被 内 存 容 纳 的 前 提 下 尽 可 能 大 来 做 到 这 一 点 ; 也 就 是 说 ， 桶 的 大 小 为 M， 
因此 =B(S)/M。 如 果 是 这 样 ， 那 么 ， 人 额外 的 内 存 中 只 有 存放 一 个 桶 的 空间 ， 即 m =1。 

事实 上 ， 我 们 真正 需要 使 桶 稍 小 于 B(S)/M， 否 则 ， 我 们 就 没有 足够 的 空间 来 同时 容纳 一 个 满 
的 桶 和 其 他 有 ~-1 个 桶 各 自 的 一 块 。 为 简化 起 见 , 假设 大 约 是 B(S)/M，m =1， 节 省 的 磁盘 10 是 : 

2M(B(R) +B(S))/B(S) 
而 且 总 的 代价 为 : (3 -2M/B(S))(B(R) +B(S)) 

例 4.9 考虑 例 4.4 的 问题 ， 在 那里 我 们 使 用 W = 101， 来 连接 关系 尺 和 3$， 其 大 小 分 别 为 
1000 块 和 500 块 。 如 果 我 们 使 用 混合 散 列 连 接 ， 那 么 我 们 希望 桶 的 数量 上 大 约 为 S007101。 假 设 
我 们 选 定 k=5， 那 么 ,平均 每 个 桶 将 有 5 的 元 组 的 100 个 块 。 如 果 我 们 试图 在 内 存 中 容纳 这 些 桶 
中 的 一 个 以 及 对 应 于 其 他 4 个 桶 的 4 个 额外 的 块 ， 那 么 我 们 需要 104 个 内 存 块 ， 而 我 们 不 能 冒 内 
存 中 的 桶 溢出 内 存 这 个 险 。 

因此 ， 我 们 建议 选择 上 =6。 现 在 ， 当 在 第 一 趟 中 散 列 $ 时 ， 我 们 有 对 应 于 5 个 桶 的 5 个 缓冲 
区 ， 而 且 ， 对 于 留 在 内 存 中 的 桶 ， 我 们 已 经 有 高 达 96 个 缓冲 区 ， 桶 大 小 的 预期 是 500/6 或 83。 
对 于 3$， 在 第 一 趟 中 我 们 用 来 读 取 S 的 所 有 内 容 所 使 用 的 磁盘 IO 的 数目 是 500， 并 且 500 -83 = 
417 个 VO 用 来 将 5 个 桶 写 到 磁盘 。 当 我 们 在 第 一 趟 中 处 理 尺 时 ， 我 们 需要 读 取 尺 的 所 有 内 容 
(1000 次 磁盘 IO) ， 并 将 它 的 6 个 桶 中 的 5 个 写 到 磁盘 上 (833 个 磁盘 IO) 。 

在 第 二 趟 中 ， 我 们 读 取 写 到 磁盘 上 的 所 有 的 桶 ， 或 再 进行 417 + 833 = 1250 SALVO, BAY 
磁盘 VO 的 数量 就 是 1500 个 用 于 读 取 R ALS, 1250 个 用 于 将 这 些 关系 中 的 5/6 写 出 ， 再 有 1250 
个 用 于 再 次 读 取 那些 元 组 ， 或 者 说 总 数 是 4000 个 磁盘 IO。 这 个 数字 可 与 直接 的 散 列 连接 或 排 
序 连接 所 需 的 4500 个 磁盘 IO 比较 。 口 


4.5.7 基于 散 列 的 算法 的 总 结 
图 4-13 给 出 了 这 节 中 讨论 的 每 一 个 算法 的 内 存 需 求 和 磁盘 IO 的 数量 。 就 像 其 他 类 型 的 算 


法 一 样 ， 我 们 应 该 注意 到 对 于 y 和 8 的 估计 可 能 是 保守 的 ， 因 为 它们 实际 上 分 别 决定 于 副本 和 组 
的 数量 ， 而 不 是 操作 对 象 关 系 的 元 组 的 数量 。 














3B 4.5.2, 4.5.3 


3(B(R) + B(S)) 4.5.4 


3(B(R) + B(S)) 4.5.5 


VES) |(8-2M/B(5))(B(R) + B(S)) | 4.5.6 
图 4-13 ”基于 散 列 的 算法 的 内 存 和 磁盘 ORR; 对 于 二 元 操作 ， 假 设 B(S) <BCR) 


请 注意 基于 排序 的 算法 和 相应 的 基于 散 列 的 算法 的 需求 几乎 是 相同 的 。 两 种 方法 明显 的 区 
别 是 : 

1. 二 元 操作 的 基于 散 列 的 算法 有 一 个 关于 大 小 的 需求 ， 它 仅 依赖 于 两 个 操作 对 象 中 较 小 的 
一 个 ， 而 不 像 基 于 排序 的 算法 那样 是 两 个 操作 对 象 大 小 之 和 。 

2, 基于 排序 的 算法 有 时 允许 我 们 产生 一 个 有 序 序列 的 结果 ， 而 且 以 后 利用 那个 排序 序列 。 
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结果 可 能 在 后 继 操 作 符 的 另 一 个 基于 排序 的 算法 中 使 用 ， 也 可 能 它 可 以 作为 一 个 需要 以 有 序 序 
列 输出 的 查询 的 回答 。 

3. 基于 散 列 的 算法 依赖 于 相等 大 小 的 桶 。 由 于 通常 在 大 小 上 至 少 有 较 小 的 差异 ， 因 此 就 不 
可 能 使 用 平均 占用 M 块 的 桶 ;我 们 必须 将 它们 限制 在 一 个 较 小 的 数字 。 如 果 不 同 散 列 关键 字 的 
数量 小 的 时 候 ， 这 一 现象 尤其 显著 。 例 如 ， 在 一 个 关系 上 执行 一 个 具有 少数 组 的 group-by 或 者 执 
行 一 个 在 连接 属性 上 有 很 少 的 值 的 连接 。 

4. 在 基于 排序 的 算法 中 ， 如 果 我 们 适当 地 组 织 磁盘 ， 排 序 子 表 可 能 被 写 到 磁盘 上 连续 的 块 
中 。 因 此 ， 每 个 块 的 三 个 磁盘 IO 中 的 一 个 可 能 需要 较 短 的 旋转 延迟 时 间或 检索 时 间 ， 所 以 可 能 
比 基 于 散 列 的 算法 中 需要 的 VO 快 得 多 。 

5. 此 外 ， 如 果 M 比 排 序 子 表 的 数量 大 得 多 ， 那么， 我 们 可 以 从 一 个 排序 子 表 一 次 读 一 些 连 
续 的 块 ， 再 一 次 节省 了 一 些 延迟 和 检索 时 间 。 

6. 另 一 方面 ， 在 一 个 基于 散 列 的 算法 中 ， 如 果 我 们 能 够 选择 桶 的 数量 小 于 M， 那 么 ， 我 们 
可 以 一 次 写 出 一 个 桶 的 若干 个 块 。 因 而 在 散 列 的 写 这 一 步 上 ， 我 们 可 以 得 到 与 我 们 在 (5) 中 看 到 
的 基于 排序 算法 的 第 二 次 读 相同 的 利益 。 类 似 地 ， 我 们 可 以 组 织 磁盘 使 得 一 个 桶 处 于 磁道 连续 
的 块 上 。 如 果 是 这 样 ， 就 如 (4) 中 所 看 到 的 排序 子 表 被 有 效 地 写 出 一 样 ， 桶 可 以 用 较 短 的 延迟 或 
检索 时 间 来 读 取 。 


4.5.8 习题 

习题 4.5.1 如 果 B(S) =B(R) =10 000，M =500， 对 于 一 个 混合 散 列 连接 需要 多 少 磁盘 IO? 

习题 4. 5.2 对 于 a) ms; b) -sj c)xqi d)6; e)7y。 写 出 实现 它们 的 两 趟 的 基于 散 列 的 算法 的 迭代 器 。 

习题 4. 5. 3 在 内 存 中 存储 一 个 桶 的 混合 - 散 列 -连接 的 思想 也 可 以 用 于 其 他 的 操作 。 当 执行 下 列 的 一 个 两 
趟 的 基于 散 列 的 算法 时 ， 说 明 怎样 节省 从 每 一 个 关系 中 存储 和 读 取 一 个 桶 的 代价 ? a) Na; b) -53 €) 8; 
d)y。 

! 习题 4. 5. 4 ”设想 我 们 正在 一 个 大 小 合适 的 关系 及 上 ， 执 行 一 个 两 趟 的 基于 散 列 的 分 组 操作 。 也 就 是 说 ， 
B(R) <M. Ri, ARST, 一些 组 大 于 必 ， 也 就 是 说 ， 它 们 不 能 一 次 装 入 内 存 中 。 对 这 里 给 定 的 算 
法 ,需要 做 怎样 的 修改 ? 

! 习题 4.5.5 设想 我 们 正 使 用 一 个 磁盘 ， 它 将 磁头 移动 到 一 个 块 的 时 间 是 100ms， 而 且 它 用 1/2ms 读 取 一 个 
块 。 所以, 一旦 磁头 定位 ， 它 用 kh/2ms 去 读 取 上 个 连续 的 块 。 假 设 我 们 想 计算 一 个 两 趟 的 散 列 连接 RDS 
S, XÆ B(R) =1000, B(S) =500， 而 且 M =101。 为 了 加 快 连接 ， 我 们 想 使 用 尽量 少 的 桶 (假设 元 组 最 后 
都 分 配 到 桶 中 ) ， 而 且 ， 将 尽量 多 的 块 读 和 写 到 磁盘 连续 的 位 置 上 。 一 个 随机 的 磁盘 I/O 计 为 100. 5ms, 
从 磁盘 读 或 写 到 磁盘 个 连续 的 块 计 为 要 100 + k/2ms: 

a) 磁盘 IO 占用 多 少时 间 ? 
b) 如 果 我 们 使 用 例 4. 9 中 描述 的 混合 散 列 连接 ， 磁 盘 IO 占用 多 少时 间 ? 
c) 在 相同 的 条 件 下 ， 一 个 基于 排序 的 连接 将 占用 多 少时 间 ? (假设 我 们 将 排序 子 表 写 到 磁盘 连续 的 块 中 ) 


4.6 基于 索引 的 算法 


一 个 关系 中 在 一 个 或 多 个 属性 上 索引 的 存在 使 得 一 些 没有 索引 就 不 可 行 的 算法 可 行 了 。 基 
于 索引 的 算法 对 于 选择 操作 尤其 有 用 ， 但 是 ， 连 接 和 其 他 二 元 操作 符 的 算法 也 使 用 索引 获得 好 
处 。 这 节 中 ， 我 们 将 介绍 这 些 算法 。 我 们 也 继续 在 4. 5. 1 节 中 开始 的 、 对 于 访问 一 个 带 索 引 的 表 
时 索引 扫描 操作 的 讨论 。 为 了 理解 问题 ， 我 们 首先 需要 离开 主题 去 考虑 “ 聚 簇 ” 索引。 


4.6.1 聚焦 和 非 聚 簇 索引 
回忆 4. 1.3 节 ， 如 果 一 个 关系 的 元 组 紧缩 到 能 存储 这 些 元 组 的 尽 可 能 少 的 块 中 ， 那 么 这 个 关 
系 就 是 “ 育 簇 "的 。 我 们 迄今 为 止 所 做 的 所 有 的 分 析 都 假设 关系 是 聚 簇 的 。 
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我 们 也 可 能 谈 到 在 一 个 或 多 个 属性 上 的 聚 闭 索 引 ， 具 有 这 个 索引 查询 关键 字 的 一 个 固定 值 
的 所 有 元 组 都 出 现在 能 容纳 它们 的 尽 可 能 少 的 块 中 。 请 注意 一 个 非 聚 艇 的 关系 不 能 够 有 一 个 聚 
簇 索引”?， 但 是 一 个 聚 艇 的 关系 可 以 有 非 豪 能 索引 。 

例 4. 10 一 个 关系 R(a,5) 按 属性 a 排序 并 且 按 此 序列 存储 ， 装 人 到 块 中 ， 肯 定 是 聚 复 的 。 
因为 对 于 一 个 给 定 的 a- 值 a,， 所 有 的 具有 那个 a 值 的 元 组 是 连续 存放 的 ， 所 以 在 c 上 的 索引 是 
一 个 聚焦 索引 。 因 而 除了 如 图 4-14 所 示 的 包含 a - fe, 的 第 一 块 和 最 后 一 块 以 外 ， 它 们 都 出 现 
在 组 装 好 的 块 中 。 然 而 ， 在 上 上 的 一 个 索引 未 必 是 聚焦 的 ， 因 为 有 一 个 固定 的 2 - 值 的 元 组 将 分 











布 到 文件 中 ， 除 非 a 和 的 值 有 很 紧密 的 相互 关系 。 O 
所 有 的 a, 元 组 


图 4-14 ”一 个 聚 钢 索 引 中 具有 一 个 固定 值 的 所 有 元 组 组 装 到 最 小 可 能 数量 的 块 中 


4. 6.2 基于 索引 的 选择 

在 4.1.1 节 中 ， 我们 讨论 了 通过 读 取 关 系 RR 的 所 有 的 元 组 来 执行 一 个 选择 oo(R) ， 看 哪些 元 
组 满足 条 件 C， 而 且 输 出 它们 。 如 果 RR 上 没有 索引 ,那么 ， 那 就 是 我 们 所 能 做 的 最 好 的 。 操 作 所 
用 的 磁盘 VO 的 数目 是 BCR); 或 者 如 果 只 不 是 一 个 聚 得 的 关系 ， 操 作 所 用 的 磁盘 IO 的 数目 其 
至 是 FKR) ， 即 R 中 元 组 的 数目 。 然 而 ,设想 条 件 C 是 a =v 的 形式 ， 这 里 的 是 一 个 存在 着 索 
引 的 属性 , o 是 一 个 值 。 于 是 就 可 以 用 ，" 值 来 查找 索引 并 且 得 到 恰好 指向 尺 中 具有 au- 值 " 的 那 
些 元 组 。 这 些 元 组 组 成 了 ee(R) 的 结果 ， 于 是 我 们 所 需要 的 就 只 是 取 回 它们 。 

如 果 Roa 上 的 索引 是 聚 簇 的 ， 那 么 取 回 集合 o, (R) 所 需 的 磁极 VO 的 数目 将 大 约 是 B(R)/ 
V(R, a) 。 实 际 的 数目 可 能 会 高 一 些 ， 原 因 如 下 : 

1. 通常 ， 索 引 并 不 是 完全 保存 在 内 存 中 ， 需 要 一 些 磁盘 LO 支持 索引 的 查找 。 

2. 即使 c =v 的 所 有 的 元 组 都 可 以 装 人 8 个 块 中 ,那么 它们 也 可 能 分 布 到 +1 个 块 中 ， 因 为 
它们 不 在 一 个 块 的 起 始 处 开始 。 

3. 尽管 尺 关 系 的 元 组 是 聚 笋 的 ， 它 们 不 可 能 都 尽 可 能 地 填 满 块 ， 例 如 ， 正 如 3.1.6 节 中 所 
讨论 的 ， 元 组 有 额外 的 空间 以 便 以 后 往 R RATHA, RE RAER. 

此 外 ， 如 果 比 例 B(R)AV(R，a) 不 是 一 个 整数 ， 我 们 当然 必须 向 上 取 整 。 最 有 意义 的 是 ， 如 
果 a 是 尺 的 一 个 关键 字 ， IWA VR, a) =7T(R)， 可 以 假定 它 一 定 比 B(R) 大 得 多 ， Rit, RN 
确实 需要 一 个 磁盘 LO 去 取 回 具有 关键 字 值 了 的 元 组 ， 加 上 访问 索引 需要 的 磁盘 IO。 

现在 ， 让 我 们 考 虚 当 Ra 上 的 索引 是 非 聚 艇 的 时 候 会 发 生 什 么 。 作 为 第 一 个 近似 ,我 们 取 
回 的 每 一 个 元 组 将 在 不 同 的 块 上 ， 而 且 ， 我 们 必须 访问 T(R)AV(R，a) 个 元 组 。 因 此 ,，T(R)/V 
(RR，a) 是 我 们 估计 的 所 需要 的 磁盘 LO 的 数目 。 这 个 数字 可 能 会 更 高 ， 因 为 我 们 可 能 也 需要 从 
磁盘 上 读 一 些 索 引 块 ; 它 也 可 能 会 低 一 些 ， 因 为 存 取 的 元 组 偶然 地 会 出 现在 同一 个 块 中 ， 而 且 那 
个 块 留 在 内 存 缓冲 区 中 。 

例 4.11 假设 B83(R) =1000, T(R) =20 000， 也 就 是 ， RA 20 000 个 元 组 存放 到 20 个 块 中 ， 
令 g 是 的 一 个 属性 ,假设 在 a。 上 有 一 个 索引 ,并 且 考 虚 0,_。(R) 操 作 。 以 下 是 一 些 可 能 的 情形 





O ”技术 上 ， 如 果 索 引 建 在 关系 的 一 个 关键 字 上 ， 因 此 给 定 一 个 索引 关键 字 值 ， 只 存在 一 个 具有 给 定 值 的 元 组 ， 那 
么 即便 这 个 关系 不 是 聚焦 的 ， 这 个 索引 也 总 是 “ 聚 复 " 的 。 但 是 ， 如 果 每 个 索引 - 关键 字 值 都 只 有 一 个 元 组 ， 那 
么 聚 灸 没有 益处 ， 并 且 对 这 样 的 索引 的 性 能 度量 与 假设 把 它 当 作 非 聚 艇 的 一 样 。 

O 回忆 4.1.3 节 我 们 建立 的 记号 ，R 中 元 组 的 数目 TCR) 和 m (R) PRATAR VR, L)o 
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及 最 坏 情 况 的 磁盘 VO 的 数目 。 所 有 情况 中 ， 我 们 将 忽略 访问 索引 块 的 代价 。 

1. 如 果 尺 是 聚 复 的 ， 但 是 我 们 不 使 用 索引 ， 那 么 代价 是 1000 个 磁盘 IO。 也 就 是 ， 我 们 必 
须 取 回 R 的 每 一 个 块 。 

2. WR 不是 聚 簇 的 而 且 我 们 不 使 用 索引 ， 那么 代价 是 20 000 个 磁盘 LO, 

3. WR VCR, a) = 100 并 且 索 引 是 陈 艇 的 ， 那么 ， 基 于 索引 的 算法 需要 1000/100 = 10 个 磁 
盘 I0， 加 上 访问 索引 所 需 的 代价 。 . 

4. 如 果 T(R，a) =100 HERSE ERAK, 那么 ， 基 于 索引 的 算法 需要 20 000/100 =2000 个 
HALO., WER, WE R ERAKAR TERR, ARMA THERA R 的 代价 。 

5. 如 果 V(R, a) =20 000， 也 就 是 说 ，ae 是 一 个 关键 字 ， 那 么 ， 基 于 索引 的 算法 ， 不 管 索 引 
是 聚 簇 的 或 是 非 聚 簇 的 ， 将 需要 1 个 磁盘 IO 加 上 访问 索引 所 需要 的 IO。 O 

索引 扫描 作为 一 种 访问 的 方法 ， 对 几 个 其 他 种 类 的 选择 操作 也 有 所 帮助 。 

a) 一 个 索引 ， 比 如 一 个 8 树 ,让 我 们 能 有 效 地 访问 在 一 个 给 定 范围 内 的 查询 关键 字 。 如 果 
RAR VBE a 上 的 这 样 一 个 索引 存在 ， 那 么 对 于 比如 ro(R)OR oo(R) AND 2 《RR) 这 样 的 
选择 ， 我 们 可 以 使 用 索引 取 回 所 需要 的 范围 内 的 到 元 组 。 

b) 一 个 具有 复杂 条 件 C 的 选择 ， 有 时 可 以 通过 这 种 方法 实现 : 在 索引 扫描 后 ， 对 索引 扫描 
检索 到 的 元 组 进行 另 一 个 选择 。 如 果 C 的 形式 是 a =v AND C'， 其 中 C' 可 以 是 任何 条 件 ， 那 么 ， 
我 们 可 以 将 选择 分 割 成 为 两 个 选择 的 一 个 串联 ， 第 一 个 仅 检查 a ="， 而 第 二 个 检查 C'。 第 一 个 
很 可 能 使 用 索引 扫描 操作 。 查 询 优 化 器 在 产生 一 个 逻辑 查询 计划 时 可 以 做 许多 改进 ， 这 种 选择 
操作 的 分 割 是 其 中 的 一 种 ; 这 将 在 5.7.1 节 中 专门 讨论 。 


4.6.3 使 用 索引 的 连接 

我 们 已 经 考虑 的 所 有 的 二 元 操作 ， 以 及 y 和 8 这 两 个 一 元 的 全 关系 的 操作 ， 都 可 以 使 用 某 些 
索引 而 得 益 。 我 们 将 留 下 这 些 算法 的 大 部 分 作为 习题 ， 而 集中 于 关于 连接 的 讨论 。 特 别 地 ， 让 我 
们 考虑 自然 连接 R(X, YKS, Z); 回忆 和 了 和 2 可 以 代表 属性 的 集合 ， 尽 管 把 它们 看 作 单 
个 属性 就 够 了 。 

对 于 我 们 的 第 一 个 基于 索引 的 连接 算法 ,假设 5 有 一 个 属性 Y 上 的 索引 。 那 么 计算 这 个 连接 
的 一 种 方式 是 检查 灵 的 每 一 个 块 ， 并 在 每 一 个 块 中 考虑 每 一 个 元 组 上。 令 与 是 上 的 对 应 于 属性 了 
的 部 分 。 使 用 索引 来 找 S 中 所 有 在 了 -部 分 上 具有 的 元 组 。 这 些 恰 好 是 $ 中 与 R 的 元 组 i 连接 
的 元 组 ， 因 此 我 们 输出 这 些 元 组 中 每 一 个 与 1 的 连接 。 

磁盘 LO 的 数量 依赖 于 几 个 因素 。 首 先 ， 假 设 尺 是 聚 簇 的 ， 我 们 将 需要 读 取 B(R) 个 块 来 得 
到 有 R 的 所 有 元 组 。 如 果 REFERA, 那么 可 能 会 需要 达到 T(R) 个 磁盘 LO. 

对 R 的 每 一 个 元 组 ， 我 们 必须 平均 读 取 5 的 7T(S)/V(S, 了 ) 个 元 组 。 如 果 5 在 Y 上 有 一 个 非 
REKER, MANERA IO 的 数量 是 T(R)TC(S)AV(5，Y) ， 但 如 果 索 引 是 聚焦 的 ， 那 么 
{L T(R)B(S)/V(S, 了 ) 个 磁盘 VO 就 足够 了 =。 对 上 述 每 一 种 情况 ， 我 们 可 能 都 需要 为 每 个 了 - 
值 增加 几 个 磁盘 IO， 用 于 读 取 索 引 本 身 。 

MSREGEREMN, FAS 的 元 组 的 代价 是 占 主导 地 位 的 ， 忽 上 略 读 人 R 的 代价 ,我 们 可 
以 采用 TC(R)T(S)AV(S,， 了) 或 者 T(R) (max(1, BCS)/V(S, 了) )) 分 别 作 为 S$ 上 非 聚 徐 的 和 到 簇 
的 情况 下 的 连接 方法 的 代价 。 

例 4.12 让 我 们 考虑 我 们 一 个 运行 的 例子 ，R(X, Y)MSCY, Z)4>5 52 4F 1000 和 500 个 
块 的 关系 。 假 设 一 个 块 可 以 容纳 每 个 关系 的 10 个 元 组 ， 因 而 T(R) =10 000, T(S) =5000, Fj 


O 但 是 记 住 , 就 像 在 4.6.2 节 中 讨论 的 ， 如 果 B(5)AV(S, 了 ) 很 小 ,就 用 1 BHR. 
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FE, UL VCS, Y) =100; 那 就 是 说 ,在 5 的 元 组 中 有 100 个 不 同 的 了 值 。 

(it R ERR, IFA SHY LASERS, BARA LO 的 近似 值 ， 排 除 掉 访问 索引 
本 身 所 需 的 后 ， 是 1000 个 磁盘 IO 用 来 读 取 R 的 块 ， 再 加 上 10 000 x 500/100 = 50 000 个 磁盘 
WO。 对 于 前 面 讨 论 的 同样 的 数据 ， Ae BARBERS 
S 上 的 索引 是 非 聚 艇 的 ， 代 价 就 会 变 得 更 高 。 

虽然 例 4. 12 使 得 索引 - 连接 看 起 来 像 是 一 个 很 差 的 办 法 ， 但 在 另 一 此 傅 况 下 用 这 种 方法 过 
RMS 就 有 意义 得 多 了 。 最 常见 的 情况 是 与 5 相 比 ，R 是 很 小 的 ，V($S, 7) 是 很 大 的 。 我 们 在 
习题 4. 6. 5 中 讨论 一 个 典型 的 查询 ， 这 个 查询 在 连接 前 的 选择 使 得 R 很 小 。 在 那 种 情况 下 ，5S 的 
大 部 分 将 不 再 被 算法 检查 ， 因 为 大 多 数 Y- 值 根本 不 出 现在 R 中 。 但 是 ， 不 论 基 于 排序 的 还 是 基 
于 散 列 的 连接 方法 都 将 检查 S 的 每 一 个 元 组 至 少 一 次 。 


4.6.4 ”使 用 有 序 索 引 的 连接 

当 索 引 是 一 个 下 ~ 树 或 者 其 他 的 可 以 容易 地 按照 排序 序列 提取 关系 的 元 组 的 结构 时 ， 我 们 可 
以 有 若干 种 其 他 的 方法 来 利用 该 索引 。 可 能 最 简单 的 情况 是 当 我 们 想 计算 R(X，7)waS(7，2Z) 
时 ， 对 于 及 或 5, 我 们 在 Y 上 有 一 个 有 序 的 案 引 。 我 们 可 以 执行 一 个 普通 的 排序 - 连接 ， 但 我 们 
不 必 执行 在 了 上 对 其 中 一 个 关系 排序 的 中 间 步 又 。 

作为 一 个 极端 的 情况 ， 不 论 是 下 还 是 S， 如 果 我 们 都 有 在 了 上 的 有 序 索 引 ， 那 么 我 们 仅 需要 
执行 4.4.6 节 中 简单 的 基于 排序 的 连接 的 最 后 一 步 。 这 个 方法 有 时 叫做 zig-zag 连接 ， 因 为 我 们 在 
索引 之 间 跳 来 跳 去 地 查找 它们 共享 的 Y- 值 。 注 意 : R 中 具有 不 出 现在 5 中 的 了 - 值 的 元 组 不 需 
要 取 回 ， 同 样 ，S 中 具有 不 出 现在 尺 中 的 Y- 值 的 元 组 也 不 需要 取 回 。 

例 4. 13 “假设 我 人 有 关系 R(X，Y) 和 S(Y，Z) ， 两 个 关系 都 有 在 了 上 的 索引 。 在 一 个 极 小 
的 例子 中 ， 让 届 的 元 组 的 查询 关键 字 的 值 (了 - 值 ) 是 有 序 的 1，3，4，4，4，5，6， 让 $ 的 元 组 
的 查询 关键 字 的 值 是 2, 2, 4, 4, 6,7。 我 们 以 及 和 5 的 第 一 个 关键 字 开始 ， 它 们 分 别 是 1 和 
2。 因 为 1 <2， 我 们 跳 过 的 第 一 个 关键 字 ， 看 它 的 第 二 个 关键 字 3。 现 在 ，5 当前 的 关键 字 小 
于 当前 的 关键 字 ， 因 此 我 们 跳 过 5 的 两 个 2， 到 达 4。 

在 这 一 刻 ， RR 的 关键 字 3 小 于 5 的 关键 字 ， 因 此 我 们 胱 过 的 关键 字 。 现 在 ， 两 个 关系 的 当 
前 关键 字 值 都 是 4。 我 们 在 两 个 关系 中 沿 着 所 有 关键 字 值 4 相关 的 指针 ， 检 索 相 应 的 元 组 ， 并 将 
它们 连接 。 注 意 : 直到 我 们 遇 到 共同 的 关键 字 4 之 前 ， 没 有 检索 关系 中 的 元 组 。 

处 理 完 4 之 后 ， 我 们 走 到 R 的 关键 字 5 和 5 的 关键 字 6， 由 于 5 <6， 我 们 跳 到 及 的 下 一 个 关 
键 字 。 现 在 关键 字 都 是 6， 因 而 我 们 检索 相应 的 元 组 并 连接 它们 。 既 然 尺 现在 已 经 空 了 ， 我 们 知 
道 两 个 关系 中 已 经 没有 连接 的 元 组 了 。 o 

如 果 索 引 是 B - 树 ， 那 么 我 们 像 图 4-15 那样 ， 使 用 
B ~ 树 结构 中 的 从 叶 结 点 到 叶 结 点 的 指针 ， 按 照 顺序 从 
左边 开始 扫描 两 个 B- 树 的 叶 结 点 。 如 果 RR 和 5 RG 
的 ， 那 么 根据 一 个 给 定 的 关键 字 对 所 有 元 组 的 检索 将 带 
来 一 个 与 读 取 两 个 关系 的 片段 成 比例 的 磁盘 O 数目 。 
注意 在 极端 情况 下 ， 从 R 和 $ 中 检索 的 元 组 都 太 多 以 至 
于 没有 一 个 能 装 人 可 用 的 内 存 ， 我 们 将 不 得 不 使 用 类 似 = 
4.4.5 节 的 修正 方法 。 但 是 ， 在 一 般 的 情况 下 ， 使 用 公 
共 的 了 - 值 来 连接 所 有 的 元 组 的 这 一 步 ， 可 以 使 用 与 读 图 4.15 使 用 两 个 索引 的 ziera 连接 
它们 同样 多 的 磁盘 /0 来 运行 。 

例 4. 14 ”让 我 们 继续 例 4.12， 看 一 看 使 用 排序 和 索引 相 结合 来 做 连接 将 怎样 在 这 个 数据 上 
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执行 。 首 先 , 假设 $ 有 一 个 在 Y 上 的 索引 ， 人 允许 我 们 来 检索 按照 了 排序 的 5 的 元 组 。 在 这 个 例子 
中 ,我 们 将 假设 关系 和 索引 都 是 聚 簇 的 。 和 暂时， 我 们 假设 RR 上 没有 索引 。 

假设 内 存 有 101 个 可 用 的 块 ， 我 们 可 以 使 用 它们 来 为 关系 R 的 1000 个 块 建立 10 个 排序 的 子 
Ko MA LO 的 数量 是 2000， 用 来 读 和 写 R 的 全 部 内 容 。 我 们 再 使 用 内 存 的 11 个 块 一 一 10 个 用 
于 排序 的 子 表 ， 一 个 用 于 经 过 索引 检索 到 的 5 的 元 组 的 块 。 我 们 忽略 操纵 索引 所 需 的 磁盘 IO 和 
内 存 缓冲 区 ， 但 如 果 索 引 是 下- 树 ， 这 些 数 目 将 非常 小 。 在 这 个 第 二 趟 中 ， 我 们 读 只 和 8 的 所 有 
的 元 组 ， 使 用 总 共 1500 个 磁盘 IO， 加 上 一 次 一 块 地 读 取 索 引 块 所 需 的 少量 磁盘 YO, RR 
估计 总 共 的 磁盘 O 在 3500 ， 这 少 于 迄今 为 止 考虑 过 的 其 他 方法 的 代价 。 

现在 , 假设 R 和 5S 都 有 Y 上 的 索引 。 那 么 就 不 需要 对 任何 一 个 关系 排序 。 我 们 使 用 恰好 
1500 个 磁盘 VO 来 通过 尺 和 8 的 索引 读 它们 的 块 。 实 际 上 ， 如 果 我 们 单 从 索引 上 确定 R 或 5 的 
一 个 大 的 片段 不 能 与 另 一 个 关系 的 元 组 匹配 ， 那 么 总 的 代价 将 远 远 低 于 1500 磁盘 LO, AB, 
不 管 哪 一 种 情况 ,我们 都 应 该 增加 读 索 引 自 身 所 需 的 少量 的 磁盘 /0。 口 


4.6.5 习题 

习题 4.6.1 假设 B(R) =10000, T(R) =500 000。R.a 上 有 一 个 索引 ， 令 KR，a) =k, 是 某 个 常数 。 在 
下 面 的 情况 下 ， 给 出 rc。-o( 尽 ) 的 代价 ， 作 为 天 的 一 个 函数 。 你 可 以 忽略 访问 索引 自身 所 需 的 磁盘 IO。 
a) 索 引 是 非 聚 艇 的 。 
b) 索 引 是 聚 艇 的 。 
c)R 是 聚 秘 的 ， 并 且 不 使 用 索引 。 

习题 4. 6.2 如 果 操 作 是 范围 查询 re<。AND.。。(R) ， 重 复习 题 4. 6. 1。 你 可 以 假设 C 和 DD 是 使 得 4/10 的 值 
在 范围 内 的 常量 。 

习题 4.6.3 假设 属性 R. a 上 有 一 个 索引 。 描 述 怎样 将 这 个 索引 用 来 提高 下 面 操作 的 执行 。 在 什么 情况 下 ， 
基于 索引 的 算法 比 基 于 排序 或 基于 散 列 的 算法 更 有 效 ? 
a)6(R). 
b)RUsS( 假 设 尺 和 3 没有 重复 ， 尽 管 它们 可 以 有 公共 的 元 组 ) 。 
ROS RH, HA RA SRA). 

! 习题 4. 6.4 WRR ERR, R a LMR BERN, 那么 依赖 于 k， 我 们 可 能 愿意 通过 执行 一 个 R 
的 表 扫 描 ， 或 者 愿意 使 用 索引 来 实现 一 个 查询 。 对 于 什么 样 的 上 值 ， 我 们 更 愿 使 用 索引 ， 如 果 关 系 和 查询 
与 : a) 习 题 4.6.1 相同 ; b) 习 题 4. 6. 2 相同 。 

习题 4. 6.5 考虑 SQL 查询 : 
SELECT birthdate FROM StarsIn, MovieStar 
WHERE movieTitle = ’King Kong’ AND starName = name; 


这 个 查询 使 用 “ movie” XR: 


StarsIn(movieTitle, movieYear, starName) 
MovieStar(name, address, gender, birthdate) 


如 果 我 们 把 它 翻 译 成 关系 代数 ， 核 心 是 一 个 在 


OmovieT'itle='King Kong’ (StarsIn) 


和 MovieStar [A] SHEE Be, IAT LR ARIE ROIS 一样 来 实现 。 既 然 仅 有 三 个 名 为 “King Kong” 的 电 
影 ，7T( RR) 就 非常 小 。 假 设 $， 即 关系 MovieStar， 有 一 个 在 name 上 的 索引 。 比 较 R eq 5 的 索引 连接 和 基于 
排序 或 基于 散 列 连接 的 代价 。 

! 习题 4. 6. 6 在 例 4.14 中 ,我 们 讨论 了 连接 Req5 的 磁盘 0 RE, BAR AS 中 的 一 个 或 两 个 都 有 在 
连接 属性 上 的 排序 索引 。 但 是 ， 如 果 有 太 多 的 在 连接 属性 上 值 相等 的 元 组 ， 那 么 在 那个 例子 中 描述 的 方 
法 可 能 会 失败 。 所 描述 的 方法 在 什么 条 件 下 (用 具有 相同 值 的 元 组 所 占用 的 块 数 来 刻画 ) 将 不 再 需要 额外 
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_ 的 磁盘 IO 呢 ? 
4.7 缓冲 区 管理 


我 们 已 经 假设 关系 上 的 操作 符 可 以 得 到 某 个 数量 M 的 内 存 缓冲 区 ， 它 们 可 以 用 来 存储 所 需 的 数据 。 实 
际 上 ， 这 些 缓 冲 区 很 少 预先 分 配给 操作 符 ， 并 且 MM 的 值 将 依赖 于 系统 的 条 件 而 变化 。 为 数据 库 上 的 查询 那 
样 的 处 理 过 程 提供 可 用 的 内 存 缓冲 区 ， 这 样 一 个 中 心 任务 就 交 给 了 缓冲 区 管理 器 。 缓 冲 区 管理 器 的 职责 
是 使 处 理 过 程 得 到 它们 所 需 的 内 存 ， 并 且 尽 可 能 缩小 延迟 和 减少 不 可 满足 的 要 求 。 缓 冲 区 管理 
器 的 角色 在 图 4-16 中 进行 了 说 明 。 


4.7.1 缓冲 区 管理 结构 
有 两 个 主要 的 缓冲 区 管理 结构 : 
1. 在 大 多 数 关系 型 DBMS 中 ,缓冲 区 管理 器 直接 控制 
内 存 。 缓冲 区 
2. 缓冲 区 管理 器 在 虚拟 内 存 中 分 配 缓冲 区 ， 人 允许 操作 系 
统 来 决定 哪些 缓冲 区 在 任何 时 候 都 真正 在 内 存 ， 以 及 哪些 组 
冲 区 在 操作 系统 管理 的 磁盘 上 的 “交换 空间 ”。 许 多 “内 存 ” 
DBMS 和 “面向 对 象 "DBMS 按 这 种 方式 操作 。 
不 管 DBMS 使 用 哪 种 方法 ， 都 会 引起 同样 的 问题 : 缓冲 
区 管理 器 应 当 限 制 使 用 的 缓冲 区 数 使 得 它们 能 够 适合 内 存 的 
容量 。 当 缓冲 区 管理 器 直接 控制 内 存 ， 并 且 要 求 超过 了 可 得 
到 的 空间 时 ， 就 不 得 不 通过 将 缓冲 区 的 内 容 返 回 到 磁盘 上 来 ”国人 6 组 六 区 管理 器 用 应 闪存 
清空 缓冲 区 。 如 果 缓 冲 的 块 没有 改变 ， 就 简单 地 将 它 在 内 存 Ui TAT RAS RR 
中 消除 掉 ， 但 如 果 块 已 经 发 生 改 变 ， 它 就 必须 写 回 到 磁盘 它 自 己 的 位 置 上 。 当 缓冲 区 管理 器 在 虚 
拟 内 存 中 分 配 空间 时 ， 它 有 机 会 来 分 配 更 多 的 可 以 超过 内 存 容量 的 缓冲 区 。 但 是 ， 如 果 这 些 缓冲 
区 都 真正 使 用 ， 那 就 将 会 颠 篮 "， 这 是 一 个 操作 系统 常见 的 问题 ， 即 有 许多 块 在 磁盘 交换 空间 
移 进 移出 。 在 这 种 情况 下 ， 系 统 花费 大 部 分 时 间 来 交换 块 ， 而 只 能 完成 很 少 的 有 用 的 工作 。 
通常 ， 当 DBMS 初始 化 时 ， 缓 冲 区 的 数目 是 一 个 参数 设置 。 我 们 期 望 这 个 数目 的 设置 使 得 缓冲 
区 占用 可 用 的 内 存 ， 而 不 管 缓冲 区 是 被 分 配 到 内 存 或 虚拟 内 存 。 在 下 面 的 讨论 中 ， 我 们 不 关心 采用 
的 哪 种 缓 种 方式 ， 只 简单 假设 有 一 个 固定 的 线 冲 好， 即 查询 或 其 他 数据 库 操作 可 用 的 缓冲 区 的 集合 。 


4.7.2 缓冲 区 管理 策略 

缓冲 区 管理 必须 做 出 的 关键 的 选择 是 当 一 个 新 近 要 求 的 块 需要 一 个 缓冲 区 时 ， 应 该 将 什么 
块 丢 出 缓冲 池 。 从 其 他 的 诸如 操作 系统 的 调度 策略 中 ， 你 可 能 已 经 对 通常 使 用 的 缓冲 - 蔡 换 策 
略 非常 熟悉 了 。 它 们 包括 : 














查询 处 理 的 内 存 管理 

我 们 假设 缓冲 区 管理 器 分 配给 一 个 操作 符 M 个 内 存 缓冲 块 ，M 的 大 小 由 系统 的 情况 ( 包 
括 其 他 的 操作 符 和 和 它 表示 的 查询 ) 决 定 ， 并 可 能 动态 变化 。 当 一 个 操作 符 有 MA RN, 
它 可 能 用 其 中 的 一 些 来 读 入 磁盘 上 的 页 ， 用 其 他 的 缓冲 块 来 存储 索引 页 面 ， 还 有 的 被 用 来 做 
排序 或 是 存放 散 列表 。 在 某 些 DBMS 中 ， 内 存 并 不 是 在 一 个 独立 的 池 中 分 配 的 ， 而 是 在 多 个 
独立 的 内 存 池 中 ， 它 们 有 用 于 不 同 目的 的 缓冲 区 管理 器 。 举 倒 来 说 ， 一 个 操作 符 从 池 中 分 配 
忆 个 缓冲 块 用 于 存放 磁 一 页 面 ， 召 个 绥 冲 块 存放 散 列 表 。 这 种 方法 更 适 于 系统 配置 和 调整 ， 
但 不 一 定 能 让 内 存 得 到 全 局 最 高 效 的 使 用 。 
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最 近 最 少 使 用 (LRU) 

LRU 规则 是 丢 出 最 长 时 间 没 有 读 或 写 过 的 块 。 这 种 方法 要 求 缓冲 区 管理 器 保持 一 张 表明 每 
个 缓冲 区 的 块 被 访问 的 最 后 一 次 时 间 的 表 。 它 还 要 求 每 个 数据 库 访问 在 这 个 表 中 生成 一 个 表 项 ， 
因此 维护 这 个 信息 需要 相当 的 工作 量 。 但 是 ，LRU 是 一 个 有 效 的 策略 ; 直觉 上 ， 长 时 间 没 有 使 
用 的 缓冲 区 比 那些 最 近 访 问 过 的 缓冲 区 有 更 小 的 最 近 访问 的 可 能 性 。 

先进 先 出 ( FIFO) 

在 FIFO 策略 中 ， 当 需要 一 个 缓冲 区 时 ， 被 同一 个 块 占用 时 间 最 长 的 缓冲 区 被 清空 ， 并 用 来 
装 人 新 的 块 。 在 这 种 方法 中 ， 缓 冲 区 管理 器 仅 需要 知道 当前 占用 一 个 缓冲 区 的 块 装 人 缓冲 区 的 
时 间 。 当 抉 从 磁盘 读 人 内 存 的 时 候 ， 可 以 生成 表 中 的 一 个 表 项 ， 当 块 被 访问 时 ， 不 需要 修改 这 个 
表 。 与 LRU 相 比 ，FIFO 需要 较 少 的 维护 ， 但 它 会 造成 更 多 的 错误 。 被 重复 使 用 的 ， 即 被 称 作 
B - 树 索引 的 根 块 的 块 ， 将 最 终 变 成 一 个 缓冲 区 中 最 旧 的 块 。 它 将 被 写 回 到 磁盘 上 ， 很 快 又 被 重 
新 读 人 另 一 个 缓冲 区 。 

“时 钟 " 算法 (第 二 次 机 会 ) 

这 个 算法 是 LRU 的 一 个 普遍 实现 的 、 有 效 的 近似 。 正 如 在 图 4-17 中 所 显示 的 ， 将 缓冲 区 看 
作 是 排 好 的 一 个 环 。 一 个 “指针 ”指向 这 些 缓冲 区 中 的 一 个 ， 如 果 想 找到 一 个 缓冲 区 来 放置 一 个 
磁盘 的 块 ， 就 按 顺 时 针 旋 转 。 每 一 个 缓冲 区 有 一 个 相应 的 “标志 ”， 它 或 者 是 0， 或 者 是 1。 带 有 
0 标志 的 缓冲 区 容易 被 选中 ,将 其 内 容 写 回 磁盘 ; 具有 1 标 [o] 

志 的 缓冲 区 就 不 是 。 当 一 个 块 读 进 缓冲 区 时 ， 它 的 标志 就 设 
为 1。 同 样 ， 当 缓冲 区 的 内 容 被 访问 过 后 ， 它 的 标志 也 设 
为 1。 


当 缓 冲 区 管理 器 需要 为 一 个 新 块 分 配 缓冲 区 时 ， 就 按照 ~ 
顺 时 针 旋 转 ， 查 找 能 够 找到 的 第 一 个 0。 如 果 它 通过 标志 1 
的 缓冲 区 ， 就 将 它 设 为 0。 这 样 ， 如 果 一 个 缓冲 区 从 指针 执 [o] 

行 一 个 完全 的 旋转 ， 将 它 的 标志 置 为 0， 到 接着 再 做 另 一 个 

完整 旋转 来 找 没 有 改变 的 带 标志 0 的 缓冲 区 为 止 ， 都 保持 没 ”图 a 时 名 算法 接 邹 转 方式 访问 
ABB, 那么 这 个 块 被 丢 出 缓冲 区 。 举 例 来 说 ， 见 Sux. ERRE NE 
图 4-17， 指 针 将 把 它 左边 的 缓冲 区 由 1 置 为 0， 再 顺 时 针 移 有 0 标志 的 缓冲 区 
动 找 到 带 0 的 缓冲 区 ， 它 的 块 将 被 蔡 换 ， 标 志 将 被 置 为 1。 


使 用 时 钟 算法 的 进一步 的 技巧 
选择 要 释放 掉 的 缓冲 区 的 “时 钟 ”算法 并 不 局 限于 第 4.7.2 节 所 描述 的 ， 标志 取 值 为 0 和 
1 的 模式 。 例 如 ， 对 于 一 个 重要 的 页 面 ， 在 开始 时 可 以 赋予 它 一 个 大 于 1 的 数字 作为 标志 ， 
然后 每 当 “ 指 针 ” 经 过 这 个 页 面 时 ,标志 的 信 就 减 1。 事 实 上 ， 被 钉 住 的 块 的 概念 可 以 通过 如 
下 的 方法 来 具体 实现 : 赋予 被 钉 住 的 块 一 个 无 限 大 的 值 作为 标志 ， 然 后 当 系 统 在 适当 的 时 机 
要 释放 被 钉 住 的 块 时 ， 将 它 的 标志 置 为 0 就 可 以 了 。 


系统 控制 

查询 优化 器 或 者 其 他 的 DBMS 部 件 可 以 给 缓冲 区 管理 器 提供 建议 来 避免 像 LRU、FIFO 或 者 
时 钟 这 样 的 严格 的 策略 引起 的 错误 。 回 忆 2.6.5 节 ， 有 时 候 内 存 中 的 一 些 块 如 果 不 首先 修改 某 些 
其 他 的 指向 它 的 块 就 不 能 移 到 磁盘 上 ， 这 是 由 某 些 技术 原因 造成 的 。 这 些 块 叫做 “被 钉 住 的 ”， 
任何 缓冲 区 管理 器 都 不 得 不 修改 缓冲 替代 策略 来 避免 驱除 被 钉 住 的 块 。 举 例 来 说 ， 对 于 上 面 提 
到 的 关于 B - 树 的 根 的 问题 的 一 个 补救 是 “ 钉 住 " 根 ， 强 人 迫 它 在 任何 时 候 都 保持 在 内 存 中 。 同 样 ， 
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对 于 像 一 趟 散 列 连接 那样 的 算法 ， 查 询 处 理 器 可 以 “ 钉 住 " 较 小 的 关系 的 块 ， 以 确保 在 全 部 时 间 
内 它 都 将 留 在 内 存 中 。 


4.7.3 物理 操作 符 选择 和 缓冲 区 管理 的 关系 

查询 优化 器 将 最 终 选 择 一 个 将 被 用 来 执行 给 定 查 询 的 物理 操作 符 的 集合 。 物 理 操作 符 的 选 
择 可 以 假设 能 得 到 执行 每 一 个 操作 符 所 需 的 一 定数 目的 缓冲 区 M。 但 是 ， 就 像 我 们 已 经 看 到 的 ， 
当 执行 查询 时 ， 缓 冲 区 管理 器 不 愿意 或 不 能 够 保证 它 能 得 到 这 M 个 缓冲 区 。 于 是 ， 关 于 物理 操 
作 符 ， 有 如 下 两 个 相关 的 问题 要 问 : 

1. 这 个 算法 能 够 适应 可 得 到 的 内 存 缓冲 区 数目 M 的 值 的 变化 吗 ? 

2. 当 不 能 够 得 到 所 期 望 的 W 个 缓冲 区 ， 并 且 期 望 留 在 内 存 中 的 块 实际 上 已 被 缓冲 区 管理 器 
移 到 了 磁盘 上 时 ， 缓 冲 区 管理 器 使 用 的 缓冲 区 替换 策略 是 怎样 影响 必须 执行 的 额外 的 磁盘 O 数 
量 的 ? 

例 4. 15 ”作为 这 个 问题 的 一 个 例子 ， 我 们 考虑 图 4-8 基于 块 的 出 大 ,循环 连接 。 基 本 的 算法 
不 真正 依赖 于 M 的 值 ， 尽 管 它 的 性 能 依赖 于 M。 这 样 ， 在 执行 开始 前 找 出 M 的 值 就 足够 了 。 

其 至 有 可 能 在 外 循环 的 不 同 迭 代 中 改变 M 的 值 。 那 就 是 ， 每 次 我 们 将 关系 5( 外 循环 的 关 
系 ) 的 一 部 分 装 人 内 存 时 ， 我 们 可 以 使 用 除了 一 个 以 外 的 所 有 可 用 的 缓冲 区 ; 保留 的 缓冲 区 是 留 
HA RRA, 尺 是 内 循环 中 的 关系 。 这 样 ， 我 们 执行 外 循环 的 次 数 依赖 于 每 一 次 选 代 可 用 的 缓冲 
区 个 数 的 平均 数 。 但 是 ， 只 要 平均 有 M 个 缓冲 区 可 用 ， 那 么 就 4.3.4 节 分 析 的 代价 就 成 立 。 在 
极端 情况 下 ， 我 们 可 能 有 幸 在 第 一 个 迭代 找到 足够 的 可 用 缓冲 区 来 装 人 $ 所 有 的 内 容 ， 在 这 种 情 
况 下 ， 垦 套 循 环 连接 就 变 成 了 4. 2. 3 节 的 一 趟 连接 。 

作为 嵌 套 循环 连接 如 何 与 缓冲 区 管理 进行 交互 的 另外 一 个 例子 ,假设 我 们 使 用 LRU 缓冲 区 
蔡 换 策略 ， 并 且 有 个 可 用 的 缓冲 区 来 容纳 R 的 块 。 当 我 们 依次 读 尽 的 块 的 时 候 ， 在 外 循环 这 次 
迭代 的 最 后 留 在 缓冲 区 中 的 块 将 是 刃 的 最 后 的 丰 个 块 。 我 们 接着 往 3 的 - 1 个 缓冲 区 中 重新 装 
入 $ 的 新 块 ， 并 且 开 始 在 外 循环 的 下 一 个 迭代 中 再 次 读 尺 的 块 。 但 是 ， 如 果 我 们 再 次 从 尽 的 头 
开始 ，R 的 个 缓冲 区 将 需要 替换 ， 我 们 不 能 仅仅 因为 >1 就 节省 磁盘 IO 数量 。 

如 果 使 用 LRU 缓冲 区 替换 策略 ， 酝 套 循环 连接 的 一 个 较 好 的 实现 将 按照 一 个 交替 的 序列 (第 
一 到 最 后 ， 再 最 后 到 第 一 个 ) 来 访问 RR 的 块 ( 称 为 摇摆 的 ) 。 在 这 种 方式 下 ， 如 果 尺 有 个 可 用 的 
缓冲 区 ， 我 们 将 在 外 循环 的 每 次 迭代 中 (第 一 次 除外 ) 节省 天 个 磁盘 IO 数目 。 那 就 是 说 ， 第 二 
次 和 后 续 的 迭代 对 尺 仅 需要 BCR) -k 次 磁盘 0。 注 意 即 便 k=1( 闭 就 是 说 ,对 没有 额外 的 组 
冲 区 ) ,我 们 也 能 每 次 迭代 节省 一 次 磁盘 0。 口 

其 他 的 算法 也 受到 M 可 以 变化 的 事实 和 缓冲 区 管理 器 使 用 的 缓冲 区 蔡 换 策略 的 影响 。 这 里 
是 一 些 有 用 的 经 验 。 

。 如 果 我 们 对 一 些 操作 符 使 用 基于 排序 的 算法 ,那么 适应 M 的 变化 是 可 能 的 。 如 果 1 减 

少 ， 我 们 可 以 改变 子 表 的 长 度 ， 因 为 我 们 讨论 的 基于 排序 的 算法 不 依赖 与 同样 大 小 的 子 
表 。 主 要 的 局 限 是 当 W 减 小 时 ， 我 们 被 迫 不 得 不 建立 许多 子 表 ， 使 得 在 合并 过 程 中 ， 我 
们 不 可 能 为 每 一 个 子 表 分 配 一 个 缓冲 区 。 

。 如 果 算 法 是 基于 散 列 的 ， 如 果 M 减少 ,我 们 可 以 减少 桶 的 数目 ， 只 要 桶 不 会 变 得 太 大 以 
至 于 它们 不 能 装 和 分配 的 内 存 即 可 。 但 是 ， 与 基于 排序 的 算法 不 同 ， 当 算法 运行 时 ， 我 
们 不 能 对 M 的 变化 做 出 反应 。 一 旦 桶 的 数目 选 定 了 ， 在 整个 第 一 趟 中 ， 它 都 保持 固定 的 
数目 ， 如 果 缓 冲 区 变 为 不 可 用 了 ， 属 于 某 些 桶 的 块 将 不 得 不 被 交换 出 去 。 


4.7.4 习题 
习题 4. 7. 1 ”假设 我 们 想 执行 连接 尽 P4S， 可 用 的 内 存在 和 M/2 VIRIAL. HM, BCR) AIB(S), eae 
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我 们 可 以 保证 下 面 算法 可 以 执行 的 条 件 : 
a) 两 趟 的 ， 基 于 散 列 的 连接 。 
b) 两 趟 的 ， 基 于 排序 的 连接 。 
ec) 一 趟 连接 。 

! 习题 4. 7. 2 ”如 果 额 外 的 缓冲 区 可 用 并 且 是 下 面 的 缓冲 区 蔡 换 策略 ， 垦 套 循环 连接 的 磁盘 LO 数目 将 怎样 
改进 : 
a) 时 钟 算法 。 
b) 先进 先 出 。 

! 习题 4.7. 3 在 例 4. 15 中 ,我 们 表明 了 利用 额外 的 缓冲 区 的 可 能 ， 方 法 是 缓冲 存储 R 的 不 止 一 个 块 和 在 外 
层 循环 中 偶数 的 迭代 上 按照 反 序 访问 R 的 块 。 但 是 ， 还 可 以 仅 为 尺 保 持 一 个 缓冲 区 并 增加 供 S 使 用 的 组 
冲 区 数目。 哪 一 个 策略 产生 最 小 的 磁盘 IO 数量 ? 


4.8 使 用 超过 两 趟 的 算法 


虽然 两 趟 对 于 除了 最 大 关系 外 的 所 有 关系 上 的 操作 已 经 足够 了 ， 但 我 们 应 当 看 出 ，4. 4 节 和 
4.5 节 讨 论 的 主要 的 技术 ， 通 过 对 算法 进行 推广 ， 根 据 需 要 使 用 多 趟 ， 就 可 以 处 理 任意 大 小 的 关 
系 。 在 这 一 节 中 ， 我 们 将 考虑 基于 排序 的 和 基于 散 列 的 方法 的 推广 。 


4.8.1 基于 排序 的 多 趟 算法 

在 4.4.1 节 中 ， 我 们 提 到 了 2PMMS 扩展 成 三 趟 算法 。 事 实 上 ， 有 一 个 简单 的 递归 的 排序 方 
法 ， 它 允许 我 们 不 必 管 关系 多 么 大 ， 都 能 完整 地 排序 ， 或 者 如 果 我 们 愿意 ， 对 任意 给 定 的 m， 可 
以 建立 ”个 排序 的 子 表 。 

假设 我 们 有 对 个 可 用 的 内 存 缓冲 区 来 对 关系 刃 排 序 ， 我 们 假设 尺 是 按照 聚 簇 存储 的 。 那 么 ， 
按 如 下 方式 做 : 

a WR RTRA M TR CARRELL, BCR) <M)， 那 么 将 RR 读 和 内存， 使 用 你 最 喜爱 
的 排序 算法 来 对 它 排序 ， 并 将 排 好 序 的 关系 写 到 磁盘 上 。 

归纳 WIR R ABBRAATE, HER ARO RLM 4A, BRER, R, e, Ryeo HET i=l, 
2, =, M, ŠAHH R, 排序 。 接 着 ， 像 4.4. 1 节 那 样 ， 将 M 个 排序 的 子 表 合 并 。 

如 果 我 们 不 仅仅 对 RR 排序， 而 是 要 在 R 上 执行 一 个 一 元 操作 ， 如 或 5， 那么 我 们 对 上 面 的 
算法 进行 修改 ,使 得 在 最 后 的 归并 中 ， 我们 在 排序 子 表 的 前 端的 元 组 上 执行 操作 。 即 

e 对 于 65， 输出 每 一 个 不 同 元 组 的 一 个 副本 ， 并 跳 过 这 个 元 组 的 其 他 副本 。 

e。 对 于 7y， 仅 在 分 组 属性 上 排序 ， 然 后 像 在 4. 4.3 节 讨 论 的 ， 将 那些 在 分 组 属性 上 具有 一 个 

给 定 值 的 元 组 以 适当 的 方式 进行 结合 。 

当 我 们 想 执行 一 个 二 元 操作 的 时 候 ， 比 如 交 或 连接 ， 我 们 基本 上 使 用 同样 的 思想 ， 所 不 同 的 
只 是 这 两 个 关系 首先 分 成 总 数 为 M 的 子 表 。 然 后 ， 每 一 个 子 表 通 过 上 面 的 递归 算法 排序 。 最 后 ， 
我 们 读 好 个子 表 中 的 每 一 个 ， 将 每 一 个 放 和 人 一 个 缓冲 区 ， 并 且 我 们 按照 4.4 节 相 应 部 分 描述 的 
方式 来 执行 操作 。 

我 们 可 以 按照 我 们 的 愿望 将 M 个 缓冲 区 在 关系 尺 和 8 间 分 配 。 但 是 ， 为 了 使 总 的 趟 数 最 少 ， 
我 们 通常 根据 关系 的 块 数 ， 按 比例 地 划分 缓冲 区 。 那 就 是 说 ，R 得 到 缓冲 区 的 M(B(R)/(b(R) 
+B(S))，5 得 到 剩余 部 分 。 


4.8.2 基于 排序 的 多 趟 算法 的 性 能 
现在 ， 让 我 们 探讨 所 需 的 磁盘 YO 数目 、 被 操作 的 关系 的 大 小 和 内 存 大 小 之 间 的 关系 。 令 
s(M, k) 是 我 们 使 用 W 个 缓冲 区 和 大 趟 能 排序 的 最 大 的 关系 的 大 小 。 那 么 我 们 可 以 按照 下 面 的 方 
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法 计算 s(M, k): 

基础 ”如 果 丰 =1， 即 允许 进行 一 趟 ， 那 么 我 们 有 B(R) <M, RAWAL, s(M, 1) = M。 

归纳 ”假设 大 > 1, MARNHRAMM A, 每 一 片 必 须 是 通过 有 -1 趟 可 排序 的 。 如 果 
B(R) =s(M, k), 那么 民 的 用 个 片 的 每 一 片 的 大 小 s(M, 有 )/m， 不 能 超过 s(M, k-1), BI 
s(M, k) =Ms(M, k-1), 

如 果 展 开 上 面 的 递归 ， 我 们 发 现 

s(M, k) =Ms(M, k-1) =M’ s(M, hk-2) = =M!s(M, 1) 

既然 *(MW，1) =M， 我 们 得 出 结论 ;(M，k) =M*, BREE, WR BCR) <M", MWAI k RM, 
FRAT A LORE REEF. HAA, WRR bk BSE RHF, 那么 我 们 可 以 使 用 的 缓冲 区 
的 最 小 数目 是 M= (B(R))“。 

排序 算法 的 每 一 趟 从 磁盘 上 读 取 所 有 数据 再 将 它们 写 回 。 这 样 ， 一 个 上 趟 排序 算法 需要 
2kB(R) 次 磁盘 LO., 

现在 ， 让 我 们 将 多 趟 连接 RA, YS, ) 作为 关系 上 二 元 操作 的 代表 ， 考 虑 它 的 代价 。 
SJM, kj) ERR, PAM 个 缓冲 区 的 最 大 的 块 数 ， 即 我 们 可 以 连接 的 关系 中 的 块 的 总 数 等 于 
或 小 于 NM，k) 。 也 就 是 说 ， 如 果 B(R) + B(S) <j(M，k) ， 连 接 就 可 以 实现 。 

最 后 一 趟 中 ， 我 们 归并 两 个 关系 的 导 个 排序 的 子 表 。 每 个 子 表 是 使 用 -1 趟 排序 的 ， 所 以 
它们 中 的 每 一 个 的 大 小 都 不 会 超过 s (MM，k -1) =M ,或 者 总 的 大 小 是 Ms(M, K-1) =M*, 
BD B(R) + B(S) <M*。 颠 倒 参 数 的 角色 ， 我 们 也 可 以 说 上 趟 计算 连接 需要 (B(R) + B(S) ) “4B 
TR, 

为 了 计算 多 趟 算法 所 需 的 磁盘 IO 数量 ， 我 们 应 当 记 住 ， 不 像 排序 那样 ， 我 们 不 计 为 连接 或 
其 他 关系 操作 将 最 终结 果 写 到 磁盘 上 的 代价 。 这 样 ， 我 们 使 用 2(-1)(B(R) +B(S) ) 次 磁盘 
IO 来 将 子 表 排序 ， 另 外 BCR) + BS) KEE IO 在 最 后 一 趟 中 读 取 排序 的 子 表 。 最 后 的 结果 是 
总 共 (25 -1)(B(R) +B(5) ) 次 磁盘 LO。 


4.8.3 基于 散 列 的 多 趟 算法 

对 于 大 关系 上 的 操作 ， 有 一 个 递归 的 使 用 散 列 的 方法 。 我 们 将 一 个 或 两 个 关系 散 列 到 M -1 
个 桶 中 ，W 是 可 用 的 内 存 缓冲 区 的 数目 。 对 于 一 元 操作 ， 我 们 再 将 操作 分 别 应 用 到 每 一 个 桶 。 
如 果 操 作 是 二 元 的 ， 比 如 连接 ， 我 们 将 操作 应 用 到 每 一 对 相应 的 桶 上 ， 就 像 它们 是 整个 的 关系 。 
我 们 可 以 递归 地 将 这 个 方法 描述 为 : 

基础 ”对 于 一 元 操作 ， 如 果 关 系 能 装 到 必 个 缓冲 区 中 ， 将 它 读 和 内存 并 执行 操作 。 对 于 二 
元 操作 ， 如 果 有 一 个 关系 能 装 到 -1 个 缓冲 区 中 ， 将 这 个 关系 读 人 内 存 ， 再 将 第 二 个 关系 一 次 
一 块 地 装 入 第 M 个 缓冲 区 ， 这 样 来 执行 操作 。 

归纳 ”如果 没有 一 个 关系 能 够 装 和 人 内存， 那么 就 像 4. 5. 1 节 中 所 讨论 的 ， 将 每 个 关系 散 列 到 
M -1 个 桶 中 。 在 每 个 桶 上 或 每 个 相应 的 桶 对 上 递归 地 执行 操作 ， 并 将 每 个 桶 或 桶 对 的 输出 积累 
起 来 。 


4.8.4 基于 散 列 的 多 趟 算法 的 性 能 

在 下 面 ， 我 们 将 做 一 个 假设 ， 即 当 我 们 散 列 一 个 关系 时 ， 要 将 元 组 尽 可 能 平均 地 分 到 桶 中 。 
事实 上 ， 如 果 我 们 选择 一 个 真正 随机 散 列 的 函数 ， 将 会 近似 地 符合 这 个 假设 ， 但 在 将 元 组 分 布 到 
桶 的 过 程 中 总 会 有 某 些 不 均衡 。 

首先 ， 考虑 一 个 一 元 操作 ， 例 如 关系 RR 上 使 用 个 缓冲 区 的 y 或 5。 令 w(M, bk) Ek BR 
算法 能 够 处 理 的 最 大 的 关系 的 块 数 。 我 们 可 以 通过 如 下 方式 递归 地 定义 4: 

基础 x(M，1) =M, HARA R AUTERA MM 个 缓冲 区 中 ， 这 就 是 说 ，B(R) <M. 
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归纳 ”我 们 假设 第 一 步 将 尺 分 到 M -1 个 大 小 相等 的 桶 中 。 这 样 ， 我 们 可 以 按照 如 下 方式 
计算 w( MM，%) 。 为 下 一 趟 准备 的 桶 必须 足够 小 ， 使 得 它们 能 够 在 下- 1 趟 中 处 理 ; 那 就 是 ， 桶 
Ade uM, -1)。 既 然 尺 被 分 到 M -1 个 桶 中 ,我 们 一 定 有 >z(M,， kb) =(M-1)u(M, 
k-1). 

如 果 我 们 展开 上 面 的 递归 ， 我 们 发 现 x(M，F) = M(MN- 1) …， 或 者 近似 地 ， 假 设 MAK, 
u(M, k) = M 。 换 句 话说 ， 如 果 M<(B(R)), RATA M 个 缓冲 区 经 过 让 趟 来 执行 关系 玉 
上 的 一 元 关系 操作 。 

我 们 可 以 为 二 元 操作 做 一 个 简单 的 分 析 。 就 像 在 4.8. 2 节 一 样 ， 让 我 们 考虑 连接 。 令 JW，j) 
是 R(X,Y)mS(Y,，2Z) 涉 及 的 两 个 关系 以 和 S 中 较 小 者 的 大 小 的 上 限 。 这 里 ， 就 像 以 前 一 样 ，M 
是 可 用 的 缓冲 区 的 数目 ,& 是 我 们 可 以 使 用 的 趟 。 

基础 jM, 1)=M-1; 就 是 说 ， 像 我 们 在 4. 2.3 节 讨 论 的 ， 如 果 我 们 使 用 一 趟 算法 来 连 
接 ， 那么 或 者 下 或 者 5 一定 能 够 装 入 M-1 个 块 中 。 

归纳 JOM, k) = (MM-1) j(M, k-1); 那 就 是 ， 在 赵 的 第 一 趟 中 ,我 们 可 以 将 每 一 个 关 
RAB M-1 个 桶 中 ， 我 们 可 能 期 望 每 个 桶 是 整个 关系 的 I/M - 1) ， 但 我 们 必须 能 够 在 M -1 
个 趟 中 ， 连 接 每 一 个 相应 的 桶 对 。 

通过 展开 对 ，%) 的 循环 ， 我 们 得 到 结论 iLM,，k) = (M -1)。 再 次 假设 很 大 ， 我 们 可 以 
近似 地 说 XM，k) =M 。 那 就 是 说 ， 如 果 min(B(R) ，B(S) ) <M*, RAI LUE k 趟 和 MM 个 组 
冲 区 来 连接 R(X, Y)PaS(y, Z). 


4.8.5 习题 
习题 4.8.1 2 BCR) =10000, B(S) =40000, E M=101, HIRE Mit R(X, YYMS(Y, Z) 的 算法 的 

执行 。 
a) 基于 散 列 的 三 趟 算法 。 
b) 基 于 排序 的 三 趟 算法 。 

! 习题 4. 8. 2 有 几 个 我 们 已 经 讨论 过 的 用 来 提高 两 趟 算法 性 能 的 “技巧 "。 辨 别 下 面 的 技巧 是 否 可 以 用 于 多 
趟 算法 ， 如 果 可 以 ， 应 该 怎样 用 ? 
a) 通 过 在 磁盘 上 连续 地 存储 块 (4. 5.7 节 ) 来 提高 基于 排序 的 算法 。 
b) 通 过 在 磁盘 上 连续 地 存储 块 (4. 5.7 节 ) 来 提高 基于 散 列 的 算法 。 
c)4. 5. 6 节 中 的 混合 - 散 列 -连接 技巧 。 


4.9 小 结 


。 查询 处 理 : 查询 被 编译 ， 其 中 涉及 大 量 的 优化 ， 然 后 被 执行 。 查 询 执行 的 研究 包括 认识 
与 SQL 能 力 匹 配 的 扩充 的 关系 代数 上 的 执行 操作 的 方法 。 

查询 计划 : 查询 首先 被 编译 为 逻辑 查询 计划 ,通常 就 像 关系 代数 表达 式 ， 然 后 像 在 第 5 
章 中 将 要 讨论 的 ， 通 过 为 每 一 个 操作 符 选 择 一 个 实现 ， 对 连接 排 定 顺序 并 做 出 一 些 其 他 
的 决定 ， 来 将 逻辑 查询 计划 转化 成 物理 查询 计划 。 

表 扫 描 : 为 了 访问 关系 的 元 组 ， 有 儿 个 可 行 的 物理 操作 符 。 表 扫描 操作 符 简 单 地 读 取 存 
放 关 系 的 元 组 的 块 。 索 引 扫 描 使 用 索引 来 找到 元 组 ， 排 序 扫描 产生 排 好 顺序 的 元 组 。 
物理 操作 符 的 代价 度量 : 通常 ， 执 行 一 个 操作 占用 的 磁盘 IO 的 数量 是 消耗 时 间 的 主要 
部 分 。 在 我 们 的 模型 中 ， 我 们 只 计 磁 盘 IO 时 间 ， 并 且 我 们 计算 读 操作 对 象 所 需 的 时 间 
和 空间 ， 而 不 管 写 出 结果 的 代价 。 

BRE: 如 果 我 们 把 一 个 查询 的 执行 看 作 是 由 选 代 器 来 操作 的 话 ， 那么 一 个 查询 执行 涉 
及 的 几 个 操作 可 以 很 方便 地 吻合 起 来 。 这 个 机 制 包含 三 个 函数 : 打开 关系 的 结构 ， 得 到 
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关系 的 下 一 个 元 组 ， 关 上 这 个 结构 。 

一 赵 算 法 : 只 要 关系 代数 操作 符 的 一 个 操作 对 象 能 够 装 和 人 内存 ， 我 们 就 可 以 将 小 的 关系 
读 进 内 存 ， 并 一 次 一 个 块 地 读 另 一 个 操作 对 象 来 执行 这 个 操作 符 。 

嵌 套 循环 连接 : 这 个 简单 的 连接 算法 甚至 在 两 个 操作 对 象 都 不 能 装 入 内 存 时 也 能 运转 。 
它 将 较 小 的 关系 尽 可 能 多 地 读 进 内 存 ， 并 将 它 与 整个 的 另 一 个 作对 象 比 较 ; 这 个 过 程 重 
复 执行 直到 较 小 的 关系 的 所 有 元 组 都 进 过 内 存 。 

两 趋 算法 : 除了 府 套 循环 连接 ， 对 于 不 能 装 人 内 存 的 操作 对 象 的 大 多 数 算法 ， 或 者 是 基 
于 排序 的 ， 基 于 散 列 的 ， 或 者 是 基于 索引 的 。 

基于 排序 的 算法 : 这 些 算法 将 它们 的 操作 对 象 分 割 成 内 存 大 小 的 、 排 序 的 子 表 。 然 后 排 
序 的 子 表 被 适当 地 归并 来 产生 所 需 的 结果 。 例 如 ， 我 们 对 所 有 的 有 序 子 表 进 行 归并 ， 我 
们 可 以 使 用 重要 的 两 趟 多 路 归并 排序 。 

基于 数列 的 算法 : 这 些 算法 使 用 一 个 散 列 函数 将 操作 对 象 分 割 到 桶 中 。 然 后 操作 被 分 别 
应 用 到 桶 (对 一 元 操作 ) 和 桶 对 (对 二 元 操作 ) 上 。 

RASA: 基于 散 列 的 算法 常常 优 于 基于 排序 的 算法 ， 因 为 它 仅 要 求 一 个 操作 对 象 是 
“小 的 "。 在 另 一 方面 ， 当 有 另外 的 原因 需要 保持 数据 排序 时 ， 基 于 排序 的 算法 表现 得 
很 好 。 

基于 索引 的 算法 : 对 于 条 件 是 索引 属性 等 于 常量 的 选择 来 说 ， 使 用 索引 是 提高 性 能 的 一 
种 极 好 的 方式 。 当 一 个 关系 是 小 的 ， 且 另 一 个 具有 连接 属性 上 的 索引 时 ， 基 于 索引 的 连 
接 也 是 很 好 的 。 

缓冲 区 管理 器 : 内 存 块 的 可 用 性 是 由 缓冲 区 管理 器 来 控制 的 。 当 内 存 中 需要 一 个 新 的 缓 
冲 区 时 ， 缓 冲 区 管理 器 使 用 读者 所 熟悉 的 某 一 个 替换 策略 ， 如 最 近 最 少 使 用 ， 来 决定 哪 
一 个 缓冲 区 的 内 容 返回 到 磁盘 上 。 

缓冲 区 数目 变化 应 策 : 通常 ， 用 于 一 个 操作 的 可 用 的 内 存 缓冲 区 的 数目 是 不 可 预测 的 。 
如 果 是 这 样 ， 当 可 用 的 缓冲 区 数目 减少 时 ， 用 于 实现 操作 的 算法 会 大 大 降级 。 

SAP: 基于 排序 的 或 基于 散 列 的 两 趟 算法 可 以 自然 地 递 推 到 三 趟 或 更 多 趟 ， 用 来 运 
行 更 大 的 数据 量 。 
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第 5 章 查询 编译 器 


本 章 我 们 讲解 查询 编译 器 及 其 优化 器 的 体系 结构 。 正 如 在 图 4-2 中 提 到 的 那样 ， 查 询 处 理 器 
必须 采取 三 个 大 的 步骤 ; 

1. 对 使 用 诸如 SQL 的 某 种 语言 书写 的 查询 进行 语法 分 析 ， 亦 即将 查询 语句 转换 成 按 某 种 有 
用 方式 表示 查询 语句 结构 的 语法 树 。 

2. 把 语法 分 析 树 转换 成 关系 代数 表达 式 树 (或 某 种 类 似 标 记 ) ， 我 们 称 之 为 远 辑 查询 计划 。 

3. 人 逻辑 查询 计划 必须 转换 成 物理 查询 计划 ， 物 理 查 询 计划 不 仅 指 明了 要 执行 的 操作 ,而且 
也 找 出 了 这 些 操作 执行 的 顺序 、 执 行 每 步 所 用 的 算法 、 获 得 所 存储 数据 的 方式 以 及 数据 从 一 个 
操作 传递 给 另 一 个 操作 的 方式 。 

第 (1) 步 (语法 分 析 ) 是 5.1 节 的 主题 。 这 一 步 的 结果 是 查询 语句 的 一 棵 语法 分 析 树 。 另 外 两 
步 涉及 许多 选择 。 在 挑选 一 个 逻辑 查询 计划 时 ,我 们 有 机 会 应 用 多 个 不 同 的 代数 运算 ,其 目标 是 
得 到 最 佳 的 逻辑 查询 计划 。5. 2 节 在 理论 上 讨论 关系 代数 的 代数 定律 。 接 着 在 5. 3 节 讲 述 如 何 将 
语法 分 析 树 转换 成 初始 的 逻辑 查询 计划 ， 并 说 明 5. 2 节 中 的 代数 定律 如 何 应 用 到 改进 初始 逻辑 查 
询 计划 的 策略 中 去 。 

当 从 一 个 逻辑 计划 产生 物理 计划 时 ， 我 们 必须 估计 每 个 可 能 选项 的 预计 代价 。 代 价 估计 本 
身 就 是 一 门 科 学 ， 我 们 在 5.4 节 讨 论 。 在 5.5 节 我 们 讲述 如 何 使 用 代价 估计 来 评价 一 个 计划 。 考 
虑 多 个 关系 的 连接 顺序 时 会 引出 许多 特殊 问题 ， 这 是 5. 6 节 的 话题 。 最 后 ，5. 7 节 讨 论 了 其 他 有 
关 选 择 物 理 查询 计划 的 各 种 问题 与 策略 : 算法 选择 以 及 采用 流水 线 处 理 还 是 物化 方法 。 


5.1 语法 分 析 和 预 处 理 


查询 编译 的 开始 几 个 阶段 如 图 5-1 所 示 。 图 中 的 四 个 方 框 对 应 于 图 4-2 的 初始 的 两 个 阶段 。 
本 节 我 们 讨论 SQL 的 语法 分 析 ， 并 给 出 可 用 于 该 语言 的 基 查询 
本 语法 要 素 。 我 们 还 会 讨论 如 何 处 理 包含 有 一 个 虚拟 视图 的 查 
询 和 其 他 的 预 处 理 步骤。 


5.1.1 语法 分 析 与 语法 分 析 树 
语法 分 析 器 的 工作 是 接收 用 类 似 SQL 这 样 的 语言 编写 的 文 
本 并 将 之 转换 成 语法 分 析 树 ， 该 树 的 结 点 对 应 于 以 下 两 者 之 一 : 
1. RF: 它们 是 词法 成 分 ,例如 关键 字 ( 如 SELECT)、 关 
系 或 属性 的 名 字 、 常 数 、 括 号 、 运 算 符 (如 + 或 < )， 以 及 其 他 
模式 成 分 。 
2. 语法 类 : 在 一 个 查询 中 起 相似 作用 的 查询 子 成 分 所 形成 选中 的 多 得 
族 的 名 称 。 我 们 用 尖 括 号 将 描述 性 的 名 称 括 起 来 表示 语法 类 。 查询 计划 
例如 ，< Query > 用 于 表示 常用 select-from-where 形式 的 查询 ， 而 图 5-1 从 一 个 查询 到 一 个 
< Condition > 将 用 于 表示 属于 条 件 的 任何 表达 式 ， 如 那些 跟 在 逻辑 查询 计划 
SQL 语句 中 的 WHERE 之 后 的 表达 式 。 
如 果 结 点 是 一 个 原子 ， 则 该 结 点 没有 子 结 点 。 然 而 ， 若 该 结 点 是 一 个 语法 类 ， 则 其 子 结 点 通 
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过 该 语言 的 语法 规则 之 一 进行 描述 。 我 们 将 通过 例子 来 说 明 这 些 思想 。 关 于 如 何 设计 一 个 语言 
的 语法 以 及 如 何 进行 语法 分 析 ， 如 将 一 个 程序 或 查询 语句 转换 成 语法 分 析 树 ， 这 些 细节 当 属 编 
译 课程 的 内 容 9。 
5.1.2 SQL 的 一 个 简单 子 集 的 语法 

通过 给 出 描述 一 个 小 的 SQL 查询 语句 子 集 的 某 些 规则 ， 我 们 来 说 明 语 法 分 析 的 过 程 。 

查询 

语法 类 < Query > 用 于 表示 ( 某 些 ) SQL 查询 语句 。 我 们 只 给 出 它 的 一 条 规则 : 


<Query> ::= SELECT <SelList> FROM <FromList> WHERE <Condition> 


“;: = ”符号 表示 “可 以 表述 为 "的 意思 。 语 法 类 < SelList > 与 < FromList > 表示 可 以 分 别 跟 在 
SELECT 与 FROM 之 后 的 列表 。 很 快 我 们 就 会 讲述 这 类 列表 的 受 限 形式 。 语 法 类 < Condition > 表 
示 SQL 条 件 (那些 要 么 为 真 要 么 为 假 的 表达 式 ) ; 后 面 我 们 将 给 出 该 语法 类 的 简化 规则 。 

注意 这 条 规则 不 接受 多 种 可 选 子 句 ， 如 GROUP BY, HAVING 或 ORDER BY 子 句 ， 也 不 接受 
SELECT 之 后 的 DISTINCT 选项 ， 还 不 接受 使 用 UNION、JOIN 或 者 其 他 二 元 操作 符 的 查询 表达 式 。 


选择 列表 
<SelList> ::= <Attribute> , <SelList> 
<SelList> ::= <Attribute> 


这 两 条 规则 说 明 一 个 选择 列表 可 为 任何 由 逗号 分 隔 的 属性 列表 : 要 么 是 单个 属性 ， 要么 是 
一 个 属性 、 一 个 逗号 以 及 一 个 或 多 个 属性 的 任意 列表 。 注 意 ， 在 完整 的 SQL 语法 中 ， 我 们 在 选 
择 列 表 中 还 需 提 供 接纳 表达 式 与 聚集 函数 以 及 属性 与 表达 式 别名 的 规则 。 


from 列表 
<FromList> ::= 《Relation> , <FromList> 
<FromList> ::= <Relation> 


这 里 的 from 列表 可 由 任意 用 到 号 分 隔 的 关系 列表 组 成 。 为 简便 起 见 ， 我 们 省 略 了 from 列表 元 素 中 
可 以 是 表达 式 的 可 能 性 ， 例 如 连接 或 子 查 询 。 类 似 地 ， 完 整 的 SQL 语法 应 当 人 允许 关系 的 元 组 变量 。 
条 件 


我 们 将 使 用 的 规则 有 : 

<Condition> ::= <Condition> AND <Condition> 
<Condition> ::= <Attribute> IN ( <Query> ) 
<Condition> ::= <Attribute> = <Attribute> 
<Condition> ::= <Attribute> LIKE <Pattern> 


虽然 我 们 在 条 件 类 中 列 出 了 比 其 他 语法 类 更 多 的 语法 规则 ， 但 是 这 些 规则 对 于 各 种 形式 的 
条 件 而 言 只 不 过 触及 皮毛 而 已 。 我 们 省 略 了 涉及 下 列 运 算 符 的 规则 : OR, NOT, EXISTS, RY 
等 值 与 LIKE 之 外 的 其 他 比较 运算 符 、 常 量 操作 数 ， 以 及 许多 其 他 结构 ， 这 些 结构 在 完整 的 SQL 
语法 中 是 需要 的 。 

基本 语法 类 

语法 类 < Attribute > < Relation > < Pattern > 是 较为 特殊 的 ， 因 为 它们 不 是 通过 语法 规则 
定义 的 ， 而 是 通过 它们 所 代表 的 原子 的 规则 来 定义 的 。 例 如 ， 在 语法 分 析 树 中 ， < Attribute > 的 
一 个 子 类 可 以 是 任意 的 字符 串 ， 该 字符 串 表 示 一 个 当前 数据 库 模 式 的 属性 。 类 侯 地 ，< Relation > 
可 以 被 当前 模式 中 作为 关系 而 言 任 何 有 意义 的 字符 串 所 替代 ; < Pattern > 可 以 用 任何 一 个 用 引号 


© 对 这 方面 内 容 不 熟悉 的 读者 可 以 参阅 A. V. Aho, M. Lam, R. Sethi, and J. D. Ullman, Compilers; Principles, Tech- 
niques, and Tools, Addison- Wesley，2007。 当 然 5.1.2 节 的 例子 用 于 表示 查询 处 理 器 中 的 语法 分 析 是 足够 了 。 
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括 起 的 字符 串 替换 ， 该 字符 串 是 一 个 合法 的 SQL 匹配 模式 。 
例 5.1 回想 一 下 在 演 电 影 例子 中 的 两 个 关系 。 


StarsIn(movieTitle, movieYear, starName) 
MovieStar(name, address, gender, birthdate) 


在 语法 分 析 和 查询 重 写 阶段 ， 我 们 的 研究 主要 围绕 一 个 查询 语句 的 两 个 版 本 来 进行 ， 这 两 
个 版 本 都 是 询问 那些 至 少 有 一 个 在 1960 年 出 生 的 影星 的 电影 名 字 。 我 们 通过 使 用 LIKE 运算 符 来 
判定 其 出 生日 期 (一 个 SQL 字符 串 ) 是否 以 "1960 "结尾 ， 从 而 找 出 那些 出 生 于 1960 年 的 影星 。 
发 起 该 查询 的 一 种 方式 是 用 子 查询 来 构造 那些 出 生 于 | SELECT movieTitle 
1960 年 的 影星 名 字 的 集合 ， 并 查看 每 个 StarsIn 元 组 中 的 star- | SEE STATED 
Name 是 否 是 该 子 查询 返回 的 集合 的 一 个 成 员 。 这 个 查询 版 本 SELECT name 
的 SQL 语句 如 图 5-2 所 示 。 WHERE birthdate LIKE ie60， 
按照 我 们 所 描绘 的 语法 ， 图 5-2 所 示 查 询 语句 的 语法 分 析 树 ”|); 
如 图 5-3 所 示 。 根 是 语法 类 < Query > ， 任 何 一 个 查询 语句 的 语 图 5-2” 找 出 有 出 生 于 1960 年 影 
法 树 都 必然 是 这 种 情况 。 顺 着 树 往 下 走 ， 我 们 可 知 该 查询 语句 星 的 电影 
是 select-from-where 形式 的 ; 选择 列表 仅 由 属性 movieTitle 构成 ， 
from 列表 只 有 一 个 关系 Starsin, 











<Query> 


BY NNN 


SELECT <SelList> FROM <FromList> WHERE <Condition> 


了 


<Attribute> <RelName> <Attribute> IN ( ) 


| 


movieTitle StarsIn starName <Query> 


一 一/ 人 人 


SELECT <SelList> FROM <FromList> WHERE <Condition> 
<Attribute> <RelName> <Attribuie> LIKE <Pattern> 


name MovieStar birthdate *$1960° 


图 5-3 图 5-2 的 语法 树 


在 WHERE 子 句 外 层 的 条 件 比 较 复 杂 。 它 属于 “属性 - IN - 用 括号 括 起 的 查询 ”的 形式 。 该 
子 查询 有 其 自身 的 单个 select 列表 与 fom 列表 ， 以 及 含有 LIKE 运算 符 的 简单 条 件 。 口 

例 5.2 现在 我 们 看 看 图 5-2 所 示 查 询 的 另 一 个 版 本 ， 这 SELECT movieTitle 
次 我 们 不 使 用 子 查询 ， 而 是 采用 StarsIn 与 MovieStar 两 个 关系 WHERE ET v estan D 
的 等 值 连接 ， 利 用 条 件 starName = name 来 规定 两 个 关系 中 提 到 birthdate LIKE ’%1960? ; 
的 影星 是 相同 的 影星 。 注 意 ，starName 是 关系 Starsin 的 属性 ， 
而 name 是 MovieStar 的 一 个 属性 。 图 5-2 中 所 示 查 询 的 这 个 版 
本 如 图 5-4 所 示 。° 

对 应 于 图 5-4 的 语法 树 如 图 5-5 所 示 。 该 语法 树 所 使 用 的 许多 规则 与 图 5-3 是 相同 的 。 不 过 ， 











图 5-4 询问 有 出 生 于 1960 年 影 
星 的 电影 的 另 一 种 方法 


o ”这 两 个 查询 有 一 点 小 小 的 区 别 。 图 5-4 所 示 的 查询 在 一 部 电影 中 有 一 个 以 上 的 影星 出 生 于 1960 年 时 ， 会 产生 重 
复 。 严 格 地 说 ， 我 们 应 当 把 DISTINCT 加 到 图 5-4 中 ， 但 我 们 所 举 的 语法 例子 作 了 简化 ， 省 去 了 该 选项 。 
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请 注意 多 于 一 个 关系 的 from 列表 和 两 个 由 AND 连接 起 来 的 条 件 。 口 


<Query> 


EY SON!’ 


SELECT <SelList> FROM <FromList> WHERE <Condition> 








<Attribute> <RelName> , <FromList> 


movieTitle StarsIn <RelName> AND 


MovieStar 


<Condition> <Condition> 
<Attribute> = <Attribute> <Attribute> LIKE ~<Pattern> 
starName name birthdate ‘$1960° 


图 5-5 图 5-4 的 语法 树 


5.1.3 预 处 理 器 

预 处 理 器 有 多 个 重要 的 功能 。 如 果 查 询 语句 中 用 到 的 关系 实际 上 是 一 个 虚 视 图 ， 则 在 from 
列表 中 用 到 该 关系 的 地 方 必 须 用 描述 该 视图 的 语法 树 来 替换 。 这 棵 语法 树 由 视图 的 定义 得 到 ， 
本 质 上 就 是 一 个 查询 语句 。 下 一 节 将 讨论 视图 引用 的 预 处 理 。 

预 处 理 器 也 负责 语义 检查 。 即 使 该 查询 语句 语法 上 有 效 ， 它 实际 上 也 可 能 在 名 称 使 用 上 违 
反 了 一 条 或 多 条 语义 规则 。 例 如 ， 预 处 理 器 必须 : 

1. 检查 关系 的 使 用 。FROM 子 句 中 出 现 的 关系 必须 是 当前 模式 中 的 关系 或 视图 。 

2. 检查 与 解析 属性 的 使 用 。 在 SELECT 子 句 或 WHERE 子 句 中 提 到 的 每 个 属性 必须 是 当前 范 
围 中 某 个 关系 的 属性 。 例 如 ， 在 图 5-3 所 示 的 第 一 个 select 列表 中 的 属性 movieTitle 是 在 仅 有 的 一 
个 关系 StarsIn 的 范围 中 。 幸 运 的 是 ，movieTitle 确实 是 Starsin 的 一 个 属性 ， 因 此 预 处 理 器 核实 了 
movieTitle 属性 的 使 用 。 如 果 在 查询 语句 中 没有 把 关系 显 式 地 附加 到 属性 上 (如 StarsIn. 
movieTitle) ， 典 型 的 查询 处 理 器 此 时 通过 给 属性 加 上 它 所 引用 关系 的 信息 来 解析 (resolve) 每 
一 属性 。 预 处 理 器 同时 也 检查 二 义 性 ， 如 果 某 属性 属于 两 个 或 多 个 具有 该 属性 的 关系 的 范 
围 ， 则 报错 。 

3. 检查 类 型 。 所 有 属性 的 类 型 必须 与 其 使 用 相 适 应 。 例 如 ， 图 5-3 中 的 birthdate 被 用 于 
LIKE 比较 中 ， 而 这 种 比较 要 求 birthdate 是 一 个 字符 串 或 是 可 被 强制 转换 成 字符 串 的 某 种 类 型 。 
由 于 birthdate 是 一 个 日 期 型 ， 而 在 SQL 中 日 期 型 通常 作 字符 串 处 理 ， 因 此 该 属性 的 使 用 是 合法 
的 。 类 似 地 ， 要 对 运算 符 进行 检查 ， 确 保 它 们 作用 到 适当 的 且 相 兼容 的 类 型 的 值 上 。 


5.1.4 预 处 理 涉及 视图 的 查询 

如 果 一 个 查询 当中 的 运算 对 象 是 一 个 虚 视 图 ， 预 处 理 器 需要 将 这 个 运算 对 象 替换 成 表示 这 
个 视图 是 怎样 由 基本 表 构 造 出 来 的 语法 树 。 如 图 5-6 所 示 。 一 个 查询 Q 由 它 在 关系 代数 中 的 表达 
式 树 表示 ， 这 棵 树 可 能 有 一 些 叶 结 点 是 视图 。 我 们 假定 有 这 样 的 两 个 视图 一 一 视图 V 和 视图 W, 
为 了 将 Q 按照 基本 表 来 解释 ， 我 们 找到 视图 了 和 视图 下 的 定义 。 这 些 定义 也 是 查询 ， 因 此 它们 
可 以 用 关系 代数 或 者 语法 树 表 示 。 

为 了 用 基本 表 来 表示 一 个 查询 ， 我 们 对 每 个 在 8 中 的 是 视图 的 叶 结 点 进行 替换 ， 替换 成 定 
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义 对 应 视图 的 树 的 根 的 一 个 拷贝 。 因 此 ， 在 图 5-6 中 ,我 们 将 叶 结 点 V 和 下 替换 成 这 些 视图 的 定 
义 。 结 果树 是 一 个 在 基本 表 上 的 、 和 关于 视图 的 原 查询 等 价 的 查询 。 


例 5.3 考虑 视图 的 定义 和 在 《数据 库 系 统 基 础 教程 
( 原 书 第 3 版 )》 例 8.3 当中 的 查询 。 视 图 ParamountMovies > 


的 定义 是 : 


CREATE VIEW ParamountMovies AS v W 
SELECT title, year 
FROM Movies 图 5-6 将 视图 的 引用 替换 成 视图 的 定义 


WHERE studioName = ’Paramount’; 


图 5-7 所 示 的 树 是 这 个 查询 的 关系 代数 表示 ; 我 们 在 这 里 使 用 关系 代数 ， 是 因为 和 语法 树 相 
比 这 种 方式 更 加 紧凑 。 
《数据 库 系 统 基 础 教程 ( 原 书 第 3 版 )》 例 8. 3 中 的 查询 是 : 


SELECT title 
FROM ParamountMovies 
WHERE year = 1979; 


查询 在 1979 年 制作 的 Paramount 的 电影 。 这 个 查询 的 表达 式 树 如 图 5-8 所 示 。 注 意 这 棵 树 当中 的 


一 个 叶 结 点 是 视图 ParamountMovies 。 口 
T title, year T girle 
9 studioName = ‘Paramount’ S year = 1979 
Movies ParamountMovies 
图 5-7 视图 ParamountMovies 的 表达 式 树 图 $-8 查询 的 表达 式 树 


我 们 用 图 5-7 当中 的 树 替 换 图 5-8 当中 的 叶 结 点 ParamountMovies。 结 果树 如 图 5-9 所 示 。 

这 棵 树 作 为 视图 预 处 理 的 正式 结果 ， 并 不 是 一 种 很 好 的 表达 查询 的 形式 。 在 5. 2 节 中 我 们 会 
讨论 改进 类 似 图 5-9 当中 的 表达 式 树 的 方式 。 具 体 来 讲 ， 可 以 将 选择 和 投影 向 树 的 底层 移动 ， 并 
且 在 很 多 情况 下 将 它们 合并 。 图 5-10 是 一 个 使 用 标准 查询 处 理 技术 可 以 获得 的 改进 的 形式 。 











T title 
5 year= 1979 
T title, year F itle 
5 studioName = ‘Paramount’ S year = 1979 AND studioName = ‘Paramount’ 
Movies Movies 


图 5-9 根据 基本 表 表 达 查 询 图 5-10 在 基本 表 上 简化 查询 
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5.1.5 习题 
习题 5. 1.1 增加 或 修改 < Query > 的 规则 ， 使 其 包含 以 下 各 种 SQL select- from- where 表达 式 的 特性 的 简单 
版 本 : 
a) BA where 子 句 的 查询 语句 
b) 产 生 包 含 DISTINCT 关键 字 的 集合 的 能 力 
c) GROUP BY 子 句 和 HAVING 子 句 
d) 用 ORDER BY 子 句 对 结果 排序 
习题 5. 1.2 ”给 < Condition > 增加 规则 ， 使 其 包含 以 下 SQL 条 件 表达 式 的 特性 : 
a) RYT‘ =’ 之 外 的 比较 运算 
b ) 带 括号 的 条 件 
c) EXISTS 表达 式 
d) 逻辑 运算 符 OR Fil NOT 
习题 5. 1.3 使 用 本 节 中 所 给 出 的 简单 SQL 语法 ， 画 出 如 下 关于 关系 R(a,， 56) 与 8S(8，c) 的 查询 语句 的 语 
法 树 : 
a)SELECT a FROM R WHERE b IN 
(SELECT a FROM R, S WHERE R. b = S.b); 
b)SELECT a, c FROM R, S WHERE R. b = S. b; 


5.2 用 于 改进 查询 计划 的 代数 定律 


我 们 将 在 5.3 节 继 续 查 询 编 译 器 的 讨论 ; 在 那里 ， 我 们 将 把 语法 树 转换 成 一 个 表达 式 ， 该 表 
达 式 由 扩充 关系 代数 运算 符 组 成 。 在 5. 3 节 ， 我 们 将 看 到 如 何 应 用 启发 式 规则 ， 使 用 关系 代数 中 
多 个 代数 定律 中 的 某 一 些 定律 来 改进 查询 语句 的 代数 表达 式 。 作 为 准备 ， 本 节 列 出 一 些 代数 定 
律 ， 用 于 将 一 个 表达 式 树 转换 成 一 个 等 价 的 表达 式 树 ， 后 者 可 能 有 更 有 效 的 物理 查询 计划 。 应 用 
这 些 代 数 变 换 式 的 结果 是 逻辑 查询 计划 ， 它 是 查询 重 写 阶段 的 输出 。 
5.2.1 交换 律 与 结合 律 

有 关 某 个 运算 符 的 交换 律 是 指 提供 给 该 运算 符 的 参数 的 顺序 是 无 关 紧 要 的 ， 其 结果 总 是 相 
同 。 例 如 ，+ 与 x 是 算术 运算 中 可 交换 的 运算 符 。 更 准确 地 说 ， 对 于 任意 的 数 x 与 y, x+y=y+ 
x Baxysyxx Mor, BÆ, “- ”不 是 一 个 可 交换 的 运算 符 : x -yy -x。 

一 个 运算 符 的 结合 律 是 指 该 运算 符 出 现 的 两 个 地 方 既 可 以 从 左边 进行 组 合 也 可 以 从 右边 进 
行 组 合 。 例 如 ，+ 与 x 是 满足 结合 律 的 运算 符 ， 意 昧 着 (x +y) +z=x+ (y+z) 和 (x Xxy) xz=xx 
(y xz) 成立。 但是,，“ - ”运算 符 不 满足 结合 律 : (x -y) -z 了 x- (y -z)。 当 一 个 运算 符 既 满足 
结合 律 又 满足 交换 律 时 ， 我 们 可 以 对 用 这 个 运算 符 连接 起 来 的 任意 多 个 操作 数 进行 随意 组 合 与 
排列 ， 而 不 会 改变 结果 。 例 如 ，( (w+x) ty) +z2=(y+%x) +(z+w)。 

关系 代数 的 多 个 运算 符 同 时 满足 结合 律 与 交换 律 。 具 体 如 下 : 

e RxS=SxR; (RxS)T=Rx(SxT7) 

© RMS=SPMR;, (RAS )pa7=Rea( SPAT ) 

e RUS=SUR; (RUS) UT=RU(SUT) 

e ROS=SNR; (RNS) AT=RN(SNT) 

注意 ， 这 些 定律 对 于 集合 与 包 也 是 成 立 的 。 我 们 不 对 每 一 个 定律 都 一 一 加 以 证 明 ， 不 过 在 下 
面 给 出 了 一 个 定律 的 证 明 。 

例 5.4 我 们 来 证 明 mx 的 交换 律 R%WS=SmR。 

首先 假设 元 组 EROS 的 结果 中 ， 即 在 左边 的 表达 式 中 。 则 必 存 在 尺 中 的 元 组 r， 和 5S 中 
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的 元 组 *， 它 们 在 的 公共 属性 上 值 相同 。 因 此 ， 当 我 们 计算 右边 的 表达 式 SORE, 元 组 s 与 7 
又 会 组 合 形成 i。 

我 们 可 能 会 想象 ; 的 各 分 量 在 左边 公式 与 右边 公式 中 的 顺序 是 不 同 的 ， 但 形式 上 ,关系 代数 
的 元 组 没有 固定 不 变 的 属性 次 序 。 相 反 ， 我 们 可 以 自由 地 对 元 组 属性 重新 进行 排列 ， 只 要 在 列 标 
题 中 有 相应 的 属性 名 即 可 ， 正 如 我 们 在 《数据 库 系 统 基础 教程 ( 原 书 第 3 版 )》2.2.5 节 讨 论 的 
那样 。 

我 们 还 没有 证 完 。 由 于 我 们 的 关系 代数 是 一 个 包 的 代数 ， 而 不 是 集合 的 代数 ， 因 此 我 们 必须 
证 明 ， 如 果 i 在 左边 出 现 了 nn 次 ， 则 t 在 右边 也 出 现 了 nn 次 , 反之 亦 然 。 假 设 i 在 左边 出 现 了 n 
次 。 那 么 与 ;相对 应 来 自 关系 RR 的 元 组 7 必须 出 现 某 个 值 ns 次 ， 与 上 相对 应 来 自 $ 的 元 组 s 出 现 
ns 次 ， 其 中 nans =n。 当 我 们 计算 右边 表达 式 SMR 时 ， 应 有 s 出 现 ns K, 7 出现 nx 次 ， 从 而 得 
BJ nens W t WBN, Man She TARN, i 

我 们 仍 没 有 证 完 。 我 们 已 完成 了 证 明 的 一 半 ， 即 左边 出 现 的 每 个 元 组 也 出 现在 右边 ， 但 我 们 
还 必须 证 明 出 现在 右边 的 每 个 元 组 也 出 现在 左边 。 由 于 明显 的 对 称 性 ， 论 证 本 质 上 是 一 样 的 ， 在 
HEPR, 口 

我 们 在 可 结合 - 可 交换 的 运算 符 中 没有 包括 6 连接 。 是 的 ，6 连接 是 可 交换 的 。 

Rug S= Sm cR 
此 外 ， 如 果 条 件 所 在 位 置 是 有 意义 的 ， 则 6 连接 也 满足 结合 律 。 但 是 ， 正 如 下 面 例子 所 指出 的 那 
样 ， 在 某 些 情况 下 ， 结 合 律 不 成 立 ， 因 为 条 件 不 能 作用 到 参与 连接 的 属性 上 去 。 


包 与 集合 的 定律 可 能 不 同 
在 把 我 们 所 熟 秋 的 有 关 集 合 的 定律 应 用 到 属于 包 的 关系 上 时 ,应当 小 心 。 例 如 ， 你 可 能 
已 经 学 过 集合 论 中 的 定律 如 4ns(BUsC) =(4nsB) Us(4nsC)， 它 就 是 “ 交 对 并 的 分 配 
律 "。 该 定律 对 集合 成 立 ， 而 对 包 不 成 立 。 
ŽARKA, BRAA Bo CHA ja}, 则 ANMs(BUsC) = ftzl Magix, x} = {x}， 然 
而 表达 式 (4mnasB) Us(4naC) = {x} Urls) = {x,，x} ， 这 与 左边 的 结果 |x| 是 不 同 的 。 


例 5.5 假设 有 3 个 关系 R(a， b), S(b, c), T(c, d)。 表达 式 - 


(R a Ro>sb S) Maca T 























可 按 假设 的 结合 律 转换 成 ; 

Re Ro>Sb (S Maca T) 
然而 ,我 们 不 能 使 用 条 件 a<d 对 3 与 了 进行 连接 ， 因 为 a ERE SHKRETE T HBE, Pr 
以 8 连接 的 结合 律 不 可 随意 使 用 。 口 


5. 2.2 涉及 选择 的 定律 

由 于 选择 可 以 明显 地 减少 关系 的 大 小 ， 因 此 进行 有 效 查 询 处 理 最 重要 的 规则 之 一 就 是 只 要 
不 改变 表达 式 的 结果 ， 就 把 选择 在 语法 树 上 尽 可 能 地 下 移 。 确 实 ， 早期 的 查询 优化 器 将 这 个 变换 
的 各 种 变型 作为 其 选择 良好 逻辑 计划 的 首要 策略 。 正 如 我 们 稍 后 指出 的 那样 ,“ 在 语法 树 上 下 推 
选择 "这 个 变换 并 不 十 分 通用 ， 但 “下 推选 择 " 的 思想 仍 是 查询 优化 的 一 个 主要 手段 。 

作为 开始 ， 当 选择 条 件 较 复杂 (如 涉及 用 AND 或 OR 连接 起 来 的 条 件 ) 时， 将 条 件 分 解 为 其 
组 成 部 分 是 有 所 神 益 的 。 其 动机 是 部 分 条 件 涉 及 的 属性 比 整 个 条 件 少 ， 可 移 到 某 个 方便 的 地 方 ， 
而 整个 条 件 则 不 一 定 能 够 移 人 。 因 此 ， 有 关 o 运算 符 的 头 两 条 定律 是 分 解 定律 : 


® Oc, AND C2(R) = oc, (o0,(R)) 


® oc, m C2(R) = (0c, (R)) Us (ec, (R)) 
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不 过 ,第 二 条 定律 只 有 在 RR 为 集合 时 才 成 立 。 注 意 ， 如 果 R 为 包 ， 集合 并 会 不 正确 地 消除 重复 。 
注意 ，C, 与 C, 的 顺序 是 灵活 的 。 例 如 ， 我 们 还 可 将 上 面 的 第 一 条 定律 写成 C, 作用 在 C 之 
后 ， oo(oal(R))。 事 实 上 ， 更 一 般 地 ,我 们 可 以 任意 交换 o 运算 符 的 顺序 : 


o oo, (00,(R)) = 00, (20, (R) 


例 5.6 S Ra, b, c)B—-TRA, Wl Oai ona=syanvsce(R) A FA O21 on ees (Tree(R)) 0 
接着 我 们 又 可 将 这 个 表达 式 在 OR 处 分 解 为 rc, (04-.(R)) Uc, (os..(R))。 在 这 种 情形 下 ， 
由 于 一 个 元 组 不 可 能 同时 满足 a=1 与 ac=3， 因 此 不 论 尺 是 否 是 一 个 集合 ， 只 要 并 是 Us， 该 变 
换 总 是 成 立 的 。 然 而 ， 总 的 说 来 对 OR 的 分 解 要 求 其 参数 是 集合 并 且 使 用 U ,。 

另 一 种 分 解 方法 是 把 o, .作为 外 层 运算 ， 即 0,.( oi ons-;(R) )。 然 后 对 OR 进行 分 解 ， 得 
Bo, ..(0..1(R) Ua.，(R))， 它 与 我 们 得 到 的 第 一 个 表达 式 等 价 ， 但 略 有 不 同 。 

涉及 o 的 另 一 类 定律 允许 我 们 对 二 元 运算 符 进行 下 推选 择 : 积 、 并 、 交 、 差 、 连 接 。 aan 
类 型 的 定律 ， 这 取决 于 下 推选 择 到 每 个 参数 是 可 选 的 还 是 必需 的 ; 

1 对 于 并 ， 选 择 必 须 下 推 到 两 个 参数 中 。 

2. 对 于 差 ， 选 择 必须 下 推 到 第 一 个 参数 ， 下 推 到 第 二 个 参数 是 可 选 的 。 

3. 对 于 其 他 运算 符 ， 只 要 求 选择 下 推 到 其 中 一 个 参数 。 对 于 连接 和 积 ， 将 选择 下 推 到 两 个 
参数 是 没有 意义 的 ， 因 为 参数 可 能 有 也 可 能 没有 选择 所 要 求 的 属性 。 即 使 可 以 同时 下 推 到 两 者 ， 
该 做 法 也 不 一 定 能 改进 计划 ; 参见 习题 5.2.6。 
因此 ， 对 于 并 的 定律 是 : 

e oc(RUS)= oc(R) Uac(S) 


这 里 ， 将 选择 移 人 语法 树 的 两 个 分 支 是 必需 的 。 
对 于 差 ， 定 律 之 一 是 : 
e oc(R— 5) = oc (R) - 
然而 ， 把 选择 下 推 到 两 参数 上 也 是 允许 的 : 
。 o0(R — 5) = oo(R) -cc(9) 
下 面 这 些 定律 允许 将 选择 下 推 到 一 个 或 两 个 参数 中 。 对 于 选择 rc， 我 们 只 能 将 其 下 推 到 一 


个 包含 C 中 涉及 的 全 部 属性 的 关系 中 (如 果 存 在 的 话 ) 。 假 设 关 系 尺 具有 C 中 提 及 的 全 部 属性 ， 
我 们 列 出 如 下 定律 : 


© oc(R x S) = co(R) x S 
e co(R m S) = oc(R) r S 
e oc(R™ py S)=oc(R) pS 
e oco(RNS) =o0(R)NS 
WR C 只 涉及 5 的 属性 ， 则 我 们 可 有 : 
© oc(RxS)= R x a(S) 
对 于 其 他 3 MR o 和 门类 似 。 如 果 关 系 尺 与 $ 恰 好 都 包含 了 C 的 属性 ， 则 我 们 可 使 用 
诸如 下 面 所 列 的 定律 : 
© oc(R es S) = oc(R) moc(S) 
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注意 ， 如 果 运 算 符 是 x 或 ， 则 不 可 能 应 用 这 个 定律 的 变种 ， 因 为 在 这 种 情形 下 民 与 $ 没 
有 公共 的 属性 。 但 是 ， 对 于 站 而 言 ， 这 种 形式 的 定律 总 是 适用 的 ， 因 为 此 时 RR 与 5 的 模式 必须 相 
同 。 

例 5.7 考虑 关系 R(a,，6b) 与 S(b5，c) 以 及 表达 式 


O(a=1 OR a=3) AND b<c(R Os S) 


条 件 b<c 只 能 用 到 5 上， 而 条 件 a。=1 与 a。=3 只 能 用 到 有 上。 这样 我 们 可 像 例 5.6 第 一 种 
可 供 选 择 的 方法 那样 从 分 解 两 个 条 件 的 AND 开始 : 


ga=1 OR oa=3(06<e(Rm S)) 
接着 ,我 们 可 把 选择 o,.。 下 推 到 S， 得 到 表达 式 : 
Ga=1 OR a=3 (Rm os<e(S)) 
最 后 ， 我 们 下 推 第 一 个 条 件 到 只， 得 到 a, opl R) T.S) 口 


一 些 平凡 的 定律 

我 们 不 去 陈述 关系 代数 的 每 一 个 真 值 定 律 。 读 者 应 当 小 心 ， 尤 其 是 对 于 那些 极端 情形 的 
定律 : 空 关系 ,条 件 总 为 真 或 总 为 假 的 选择 或 8 连接 ,包含 全 部 属性 的 投影 等 。 举 例 来 说 ， 
下 面 是 许多 可 能 的 特殊 情形 定律 中 的 一 些 定 律 : 

1. 任何 对 空 关系 的 选择 为 空 

2. 如 果 C 是 总 为 真 的 条 件 ( 如 : «>10ORe<10 应 用 到 不 允许 x=NULL 的 关系 上 ) ， 则 
Ce( 民 ) =R. 

3. w RAZ, M RUS=S, 

















5.2.3 下 推选 择 

正如 例 5.3 中 那样 ， 在 表达 式 树 中 下 推选 择 一 一 用 5. 2. 2 节 所 述 规则 右边 表达 式 蔡 换 其 左边 
的 表达 式 一 一 是 查询 优化 器 最 强 有 力 的 工具 。 然 而 ， 当 查询 包含 虚 视 图 时 ， 有 时 首先 将 选择 尽 可 
能 往 树 的 上 部 移 是 很 必要 的 ， 然 后 再 把 选择 下 推 到 所 有 可 能 的 分 支 。 用 一 个 例子 来 说 明 如 何 适 
当地 移动 选择 。 

例 5.8 假设 我 们 有 如 下 关系 : 


StarsIn(title, year, starName) 
Movies(title, year, length, genre, studioName, producerC#) 


注意 我 们 为 了 使 这 个 例子 更 加 简单 X Starsin 中 的 前 两 个 属性 通常 的 名 称 movieTitle 和 mov- 
ieYear 进行 了 修改 。 定 义 视图 MoviesOf1996 为 : 


CREATE VIEW Movies0f1996 AS 
SELECT * 
FROM Movies 
WHERE year = 1996; 


我 们 可 用 SQL 进行 如 下 查询 “在 1996 年 有 哪些 影星 为 哪些 电影 制作 公司 工作 ?”: 


SELECT starName，studioName 
FROM MoviesOf1996 NATURAL JOIN Starsin; 


视图 MoviesOf1996 用 关系 代数 表达 式 定义 为 : 


Oyear=1996 (Movies) 
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因此 ， 以 上 查询 是 这 个 表达 式 与 StarsIn 的 自然 连接 ， 然 后 在 属性 starName 与 studioName 上 投影 ， 
它 具 有 如 图 5-11 所 示 的 表达 式 。 

这 里 ， 选 择 已 经 位 于 它 可 移 人 的 树 的 最 下 面 了 ， 因 此 已 无 法 “在 树 中 下 推选 择 ” 了 。 然 而 ， 
规则 oe (ROS) =oc(R)mS 可 以 “ 反 过 来 "用 ， 把 选择 o_owe 放 到 图 5-11 的 连接 之 上 。 然 后 ， 
由 于 year 是 Movie 与 StarsIn 两 者 的 属性 ， 我 们 可 以 把 选择 下 推 到 连接 结 点 的 两 个 子 结 点 。 所 得 还 
辑 查询 计划 如 图 5-12 所 示 。 它 很 可 能 得 到 了 改进 ， 因 为 在 Starsin 与 1996 年 的 电影 连接 之 前 已 减 


少 了 关系 StarsIn 的 大 小 。 口 
starName, studioName n starName, studioName 
| | 
bq bq 
© year = 1996 StarsIn © year = 1996 © year = 1996 
Movies Movies StarsiIn 
图 5-11 由 查询 与 视图 的 定义 构造 图 5-12 通过 在 树 上 上 移 和 下 移 选择 
的 逻辑 查询 计划 来 改进 查询 计划 


5.2.4 涉及 投影 的 定律 
投影 可 以 像 选 择 一 样 下 推 到 多 个 其 他 运算 符 中 。 下 推 投影 与 下 推选 择 不 同 ， 当 下 推 投影 时 ， 
投影 留 在 原 处 是 相当 平常 的 。 换 名 话说 ,“ 下 推 ”投影 确实 涉及 在 一 个 已 存在 的 投影 之 下 的 某 个 
地 方 引 入 一 个 新 的 投影 。 
下 推 投影 是 有 用 的 ， 但 一 般 而 言 不 如 下 推选 择 那么 有 用 。 原 因 是 选择 通常 以 较 大 的 因子 减 
少 关系 的 大 小 ， 而 投影 不 改变 元 组 数 ， 只 减少 元 组 的 长 度 。 事 实 上 ,《 数 据 库 系统 基础 教程 ( 原 
书 第 3 版 )》5. 2.5 节 中 的 扩展 投影 运算 符 实际 上 增加 了 元 组 的 长 度 。 
为 描述 使 用 扩展 投影 的 转换 ， 我们 需要 引入 一 些 术 语 。 考 虑 投影 列表 中 的 项 Ex， 其 中 于 
是 一 个 属性 或 含有 属性 与 常量 的 一 个 表达 式 。 我 们 称 中 提 到 的 全 部 属性 是 投影 的 输入 属性 ，x 
是 一 个 输出 属性 。 若 一 个 项 是 单个 属性 的 ， 则 它 既 是 输入 属性 又 是 输出 属性 。 如 果 一 个 投影 列表 
的 属性 构成 不 包含 更 名 或 不 是 单个 属性 的 表达 式 ， 则 我 们 称 该 投影 是 简单 的 。 
例 5.9 投影 7,,.(R) 是 简单 的 ， a, b, c 既是 其 输入 属性 又 是 其 输出 属性 。 但 是 7。,, e (R) E 
是 简单 的 。 其 输入 属性 是 a、b、c， 而 其 输出 属性 是 x 和 c 口 
投影 定律 之 后 隐藏 的 原理 是 : 
。 我 们 可 以 在 表达 式 树 上 的 任何 地 方 引 入 投影 ， 只 要 它 所 消除 的 属性 是 其 上 的 运算 符 从 来 
不 会 用 到 的 ， 并 且 也 不 在 整个 表达 式 的 结果 之 中 。 
在 这 些 定律 的 最 基本 形式 中 ， 所 引入 的 投影 总 是 简单 的 ， 尽 管 已 经 存在 的 投影 (比如 下 面 的 
L) 没 有 必要 这 样 : 
。Tr(RDS ) =a, (ry(R)7y(S)), 其 中 MM 和 WN 是 连接 属性 ， 以 及 分 别 包 含 在 RR 和 5 中 
的 工 的 输入 属性 。 
© wm, (ROIS ) = a, (ary (R)Pcary(S)), FL M 和 六 是 连接 属性 (如 在 条 件 C 中 提 到 的 属 
性 ) ， 和 分 别 包含 在 RR 和 5 中 的 工 的 输 和 人 属性。 
em (RS ) = w,(ay(R) xXTw(S))， 其 中 M 和 六 分 别 是 包含 在 工 的 输入 属性 中 的 丸 与 3 
的 全 部 属性 。 
例 5.10 令 Ra，5，c) 与 8S(e，d，e) 是 两 个 关系 。 考 虑 表达 式 Tarent (RAS) HER 
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MAHER a, b, e, Me 是 仅 有 的 连接 属性 。 我 们 可 以 应 用 下 推 投影 到 连接 之 下 的 定律 得 到 以 
下 等 价 表达 式 : 


Tatesz, boy (7a,b,c(R) bd Te,e(S)) 


EM, RY r (BPN; 它 是 对 RR 全 部 属性 的 投影 。 我 们 可 以 消除 这 个 投影 ， 得 到 
第 三 个 等 价 表达 式 : 7,,, (RMT.(5))。 也 就 是 说 ， 与 原始 表达 式 相 比 仅 有 的 变化 是 我 们 
在 连接 之 前 把 属性 4 MS BET. 口 
我 们 可 在 包 并 之 前 进行 投影 。 即 


wr(R Up S)= mi(R) Up ATL(S) 


与 此 相反 ， 投 影 不 能 被 推 到 集合 并 或 集合 、 包 的 交 或 差 之 下 。 

例 5.11 Ra, 5) 由 一 个 元 组 和 (1, 2)} 组成， Sla, 65) 由 一 个 元 组 {(1, 3) AR. M 
T. (RNS) =m, (D) =O Ri, mR NATS =N =1)}. 口 

如 果 投 影 涉及 一 些 计 算 ， 并 且 投 影 列 表 中 某 一 项 的 输入 属性 全 部 属于 投影 下 面 连接 或 积 的 
其 中 的 某 一 参数 ， 则 我 们 可 选择 直接 在 那个 参数 上 进行 计算 ， 尽 管 这 不 是 必需 的 。 下 面 的 例子 有 
助 于 说 明 这 一 点 。 

例 5. 12 HS R(a, 5，c) 与 8S(c，d，e) 是 关系 ， 考 虑 连接 与 投影 ru。 (RS). R 
们 可 以 把 和 a + 及 其 更 名 为 * 直接 移 到 关系 尺 上 ， 类 似 地 把 和 qd +e BAS 上 。 所 得 到 的 等 价 表 
达 式 是 


Tay (Tats, c(R) mq Tatre—»y, e(S)) 


Be Ab SH A — Ae TATE AR x By 是 c。 此 时 ,我 们 不 能 将 求 和 式 更 名 为 <， 因 为 一 个 关 
系 不 能 同时 有 两 个 同名 为 。 的 属性 。 因 此 ， 我 们 必须 采用 一 个 临时 的 名 字 ， 然 后 在 连接 之 上 的 投 
影 中 再 做 一 次 更 名 。 例 如 ，77。,， arew( 及 四 S) 可 变 为 my (Tere R) Mr wy..(S))。 口 

下 推 投影 到 选择 之 下 也 是 可 能 的 。 

© m(ac(R)) = m, (oc(ay(R))), 其 中 放 是 工 的 输入 属性 列表 或 是 条 件 C 中 提 到 的 属性 

列表 。 

像 在 例 5. 12 中 一 样 ， 我们 可 以 将 在 列表 上 的 计算 移 到 列表 MM 上 去 计算 ， 只 要 条 件 C 不 需 

要 那些 包含 在 计算 中 的 工 的 输入 属性 即 可 。 


5. 2.5 有 关连 接 与 积 的 定律 . 

我 们 在 5.2. 1 节 中 已 看 到 许多 有 关连 接 与 积 的 重要 定律 : 交换 律 与 结合 律 。 当 然 还 有 另外 一 
些 定律 直接 来 自 连接 的 定义 ， 正 如 在 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》2. 4. 12 节 当 中 提 到 的 : 

a) RocS=o. (RxS)。 

b)RmMS=mi(oc(RxS))，, 条 件 C 的 意思 是 丸和 S 中 具有 相同 名 字 的 属性 对 进行 等 值 比较 ， 
LEBRA RSS 中 每 一 个 等 值 对 中 的 一 个 属性 以 及 其 他 所 有 属性 的 列表 。 

在 实际 中 ， 我 们 通常 想 从 右 到 左 使 用 这 些 规则 。 即 我 们 把 后 面 跟着 选择 的 积 认 为 是 某 个 连 
接 。 这 样 做 的 原因 是 计算 连接 的 算法 通常 比 计算 积 之 后 跟着 一 个 对 该 积 的 (很 大 的 ) 结 果 的 选择 
之 算法 要 快 得 多 。 


5. 2.6 有 关 消 除 重复 的 定律 
运算 符 5 用 于 从 包 中 消除 重复 ， 它 可 下 推 到 多 个 运算 符 中 ， 但 不 是 全 部 运算 符 。 一 般 而 言 ， 
将 35 移 到 树 的 下 边 减 少 了 中 间 关 系 的 大 小 从 而 可 能 是 有 益 的 。 此 外 ， 我 们 有 时 会 把 8 移 到 一 个 可 
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以 完全 消除 的 位 置 ， 因 为 它 作用 于 一 个 不 含 重复 元 组 的 关系 上 。 

。 若 尺 没有 重复 ， 则 6(R) =R。 这 样 的 关系 R 的 几 个 重要 情形 包括 : 
a) 声 明了 主键 的 一 个 存储 的 关系 。 
b) 属 于 yy 运算 结果 的 一 个 关系 ， 因 为 分 组 创建 一 个 没有 重复 的 关系 。 
c) 集 合 的 一 个 并 、 交 、 差 运算 的 结果 。 

在 其 他 运算 符 中 “下 推 "5 的 几 个 定律 如 下 : 

e 6(R x S) = 6(R) x 6(S) 

o 6(R va S) = 6(R) m 6(S) 

e (Rac S) = 6(R) sc 6(S) 

® 5(a¢(R)) = oc (6(R)) 

我 们 也 可 以 把 6 移 到 交 运 算 的 其 中 一 个 参数 或 两 个 参数 上 : 

e 6RNB S) = ô(R) Ns S = RNB 6(S) = 6(R) Nsg 6(S) 


与 此 相反 ， 一 般 而 言 5 不 能 移 人 Us。，-e、 或 了 等 运算 符 中 。 

例 5. 13 令 尺 有 元 组 i 的 两 个 找 贝 , S 有 :的 一 个 拷贝 。 则 5CRUsS) 有 :的 一 份 拷贝 ,而 
6(R) Us6 (S) 有 :的 两 份 拷贝 。 同 时 ,6(R-。5S) 有 :的 一 份 拷贝 MAR) -56(S) 不 含 i 的 
拷贝 。 

现在 考虑 关系 T(a, b) ,含有 元 组 (1, 251, 3) 各 一 份 拷贝 ， 此 外 不 再 有 其 他 元 组 。 则 
5(C7。(7) ) 有 元 组 (1) 的 一 份 拷贝 ， 而 re(5(7) ) 则 有 元 组 (1) 的 两 份 拷贝 。 口 


5.2.7 涉及 分 组 与 聚集 的 定律 

考虑 运算 符 y 时 ， 我 们 发 现 很 多 变换 的 应 用 取决 于 所 用 聚集 运算 符 的 细节 。 因 此 ， 我 们 不 能 
像 用 于 其 他 运算 符 定律 那样 陈述 它 的 通用 定律 。 其 中 的 一 个 例外 是 在 5. 2. 6 节 中 提 到 的 定律 ， 即 
Y 吸收 5。 准 确 地 说 : 


e ô(yL(R)) = 12(R) 


另 一 个 通用 规则 是 : EMH y 运算 符 之 前 ， 只 要 我 们 需要 ， 我 们 就 可 以 用 投影 在 参数 中 去 除 
无 用 的 属性 。 该 定律 可 写 为 : 

e y,( R) =y,(7,(R)), HP M BAPE L PRAM MAY R 属性 的 列表 。 

其 他 变换 依赖 于 y 运算 符 之 中 的 聚集 之 原因 是 某 些 聚集 ， 尤 其 是 MIN 与 MAX ， 不 受 重复 是 
否 存在 的 影响 。 而 另 一 些 聚集 ， 如 SUM、COUNT、AVG， 如 果 在 计算 聚集 之 前 消除 重复 ， 一 般 
会 得 到 不 同 的 值 。 

因此 ， 我 们 称 运算 符 y 是 不 受 重复 影响 的 ， 如 果 工 中 仅 有 的 聚集 是 MIN 与 /或 MAX, F 
是 有 : 

© y,(R) =y.(6(R))， 成立 的 条 件 是 y, 是 不 受 重复 影响 的 。 

例 5.14 假设 我 们 有 如 下 关系 


MovieStar (name, addr, gender, birthdate) 
StarsIn(movieTitle, movieYear, starName) 


我 们 想 知道 每 一 年 中 出 现在 一 部 该 年 电影 中 最 年 轻 影 是 的 生日 。 我 们 将 这 个 查询 表达 为 : 
SELECT movieYear, MAX(birthdate) 

FROM MovieStar, StarsIn 

WHERE name = starName 

GROUP BY movieYear; 
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直接 由 查询 语句 构造 而 得 的 初步 逻辑 查询 计划 如 图 5-13 所 示 。FROM 列表 是 一 个 积 ， 





WHERE 子 句 是 在 该 积 之 上 的 一 个 选择 。 分 组 与 聚集 是 Y movieYear, MAX (birthdate ) 
用 在 它们 之 上 的 y 运算 符 表示 的 。 如 果 我 们 愿意 的 话 ， ` 
可 应 用 到 图 5-13 之 上 的 变换 是 : 
1. 将 选择 与 积 组 合成 一 个 等 值 连 接 。 x 
2. 在 y 之 下 引入 8， 因为 y 是 不 受 重复 影响 的 。 > 
3. Æ y 与 所 引入 的 5 之 间 引 人 7， 投影 到 movieYear Moviestar StarsIn 
与 birthdate 上 ， 与 y 相关 的 仅 有 的 两 个 属性 。 图 5-13 例 5.14 查询 的 初步 逻辑 查询 计划 


所 得 的 计划 如 图 5-14 所 示 。 
现在 我 们 可 以 下 推 6 到 mx 之 下 ， 并 且 如 果 需 要 的 话 可 在 6 之 下 引入 7。 新 得 到 的 查询 计划 如 
图 5-15 所 示 ， 如 果 name 是 MovieStar 的 键 ， 延 伸 到 这 个 关系 的 分 支 上 的 8 可 以 去 除 。 口 


Y movieYear, MAX (birthdate 》 


Y movieYear, MAX (birthdate ) T movieYear, birthdate 
d movieYear, birthdate bq 
| name = starName 
5 a NS 
| è ô 
name = starName x birthdate, name r movieYear, starName 
MovieStar StarsIn MovieStar StarsIn 
图 5-14 AS. 14 查询 语句 的 另 一 个 查询 计划 图 5-15 例 5.14 的 第 3 个 查询 计划 


5.2.8 习题 

习题 5.2.1 给 出 例子 证 明 ， 
a) 重 复 消除 (5) 不 能 下 推 到 投影 之 下 。 
b) 重 复 消除 不 能 下 推 到 包 并 或 包 差 之 下 。 
c) 投 影 不 能 下 推 到 集合 并 之 下 。 
d) 投 影 不 能 下 推 到 集合 差 或 包 差 之 下 。 

习题 5. 2.2 证 明 我 们 总 是 可 以 下 推 投影 到 包 并 的 两 个 分 支 之 下 。 

! 习 题 5. 2.3 某 些 集 合 的 定律 也 适用 于 包 ; 某 些 则 不 然 。 下 面 每 条 定律 对 于 集合 都 是 正确 的 ， 判 定 对 包 是 否 
也 正确 。 对 包 是 正确 的 定律 给 出 证 明 ， 或 给 出 一 个 反例 。 
a)R-R=-@D 
b)RU(SNT) = (RUS) N (RUT) (并 对 交 的 分 配 律 ) 
c) RUR =R( F KREE) 
d) ROR = R BERGE) 

! 习 题 5. 2. 4 ”我 们 可 按 以 下 方式 定义 包 的 C: RCS 当 目 仅 当 对 于 每 个 元 素 *，% ER PARLOR FRE 
FEES 中 出 现 的 次 数 。 判 定 以 下 陈述 (对 于 集合 全 真 ) 对 于 包 是 否 全 真 ; 给 出 证 明 或 反例 : 
a)# RCS 且 SER， 则 尺 =S 
b) 4 RCS, W RUS=S 
c)# RGS, 则 RMS=R 

习题 5. 2. 5 针对 表达 式 m (Rla, b, c)PaS(b, c, d, e)), SAAB PHERB, EPLE: 
a)a, b, a+d—z 


b)b +c—>x, c+d—y 
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习题 5.2.6 当 可 以 下 推选 择 到 二 元 运算 符 的 两 个 参数 上 时 ,我 们 需要 决定 是 否 这 样 做 。 其 中 某 个 参数 存在 

索引 时 如 何 影响 我 们 的 选择 ? 例如 ， 考 虑 表达 式 oc (RNS), HPS 上 有 一 索引 。 

! 习题 5. 2.7 下 面 是 有 关 关 系 Ra, 5b) 运算 的 一 些 等 式 。 判 定 它们 是 否 为 真 ; 给 出 证 明 或 举 出 反例 。 
a) Yum ey ya Ya sum) CR) )= Yy, sum b) (YMN. R) ) 
b) Yumcaj—y,a È Ya max) (R)) = Yy, MAX b)—x CY mia), (R) ) 

! 习题 5. 2. 8 习题 4. 2. 3 中 类 似 连接 的 运算 符 服从 某 些 熟 知 的 定律 ， 其 他 的 运算 符 则 不 然 。 判 定 下 面 每 一 个 
式 子 是 否 成 立 。 对 于 成 立 的 定律 给 出 证 明 ， 否 则 给 出 反例 。 
a)RO<S=SP<CR 
b)a,~(RP<S) =0,(R)P<S 
c)oc(R mas) =o¢(R) aS 
d)ec(RB S) 50e (R) X, S, HH C AAA R VBE 
e)oc(R K S) =R&oc(S), IH C 只 包含 $ 的 属性 
mR D< S) =m, R) PC S 
B) (RS) T=R RS AT) 
h)RQ&S=S XR 
IRM, S= SR 

! 习题 5. 2. 9 尽管 下 面 所 示 并 不 是 一 个 精确 的 代数 定律 ， 因 为 它 包 含 了 一 个 不 能 确定 数量 的 操作 对 象 ， 但 通 
常 来 说 ， 这 是 真 的 ， 

SUM(a1, a2,... ,Qn) =a, +aQeg+---+Qn 


SQL 中 既 有 SUM 运算 符 ， 也 有 整数 和 实数 的 加 法 。 考 虑 a, 中 的 一 个 或 多 个 可 能 是 NULL 而 不 是 一 个 整数 
或 实数 的 可 能 性 ， 这 条 “定律 "在 SQL 上 成 立 吗 ? 

! 习题 5. 2. 10 我 们 曾 在 例 5. 14 中 提 到 我 们 所 给 出 的 计划 没有 一 个 是 必然 最 佳 的 计划 。 你 能 想 出 一 个 较 好 的 
计划 吗 ? 


5.3 从 语法 分 析 树 到 逻辑 查询 计划 


我 们 现在 继续 查询 编译 器 的 讨论 。 在 5. 1 节 中 已 经 构造 了 一 个 查询 语句 的 语法 分 析 树 ， 下 一 
步 我 们 需要 把 语法 树 转换 成 所 希望 的 逻辑 查询 计划 。 这 需要 分 两 步 ， 正 如 图 5-1 中 所 提示 那样 。 

第 一 步 ， 按 适当 的 群 组 用 一 个 或 多 个 关系 代数 运算 符 替 换 语法 树 上 的 结 点 与 结构 。 我 们 将 
提示 这 些 规 则 中 的 某 一 些 ， 其 余 的 一 些 留 作 习题 。 第 二 步 ， 利 用 第 一 步 中 产生 的 关系 代数 表达 
式 ， 将 其 转换 成 我 们 所 期 望 的 一 个 表达 式 ， 它 可 被 换 转 成 最 有 效 的 物理 查询 计划 。 


5. 3. 1 转换 成 关系 代数 
现在 我 们 非 正 式 地 说 明 将 SQL 语法 树 转换 成 代数 的 逻辑 查询 计划 的 一 些 规则 。 第 一 条 规则 ， 
可 能 也 是 最 重要 的 ， 使 我 们 能 够 直接 将 所 有 "简单 的 ”select-from-where 结构 转换 成 关系 代数 。 非 
正式 地 陈述 为 : 
。 如 果 我 们 有 一 个 包含 < Condition > 的 没有 子 查询 的 < Query > ， 则 可 以 用 一 个 关系 代数 表 
达 式 来 替换 整个 成 分 -一 选择 列表 、from 列表 以 及 条 件 ， 其 中 代数 表达 式 自 底 向 上 由 以 
下 内 容 组 成 : 
a) <FromList > 中 提 及 的 全 部 关系 的 积 是 以 下 运算 符 的 参数 。 | 
b) 选择 o。， 其 中 C 就 是 要 被 替换 成 分 中 的 < Condition > 表达 式 ， 同 时 选择 又 是 下 面 运算 
符 的 参数 。 
c) 投 影 mr ， 其 中 工 是 < SelList > 中 的 属性 列表 。 
例 5. 15 让 我 们 考虑 如 图 5-5 所 示 的 语法 分 析 树 。select-from-where 变换 应 用 到 图 5-5 的 整 
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棵 语法 树 上 。 我 们 取 from 列表 中 两 个 关系 Starsin 与 MovieStar 的 积 ， 用 根 为 < Condition > 的 子 树 
中 的 条 件 进 行 选择 ， 并 投影 到 选择 列表 movieTitle ™ movieTitte 
上 。 所 得 关系 代数 表达 式 如 图 5-16 所 示 。 © sarName = name la LIKE '%$1960' 
同样 的 变换 不 能 应 用 到 图 5-3 所 示 的 外 层 查询 | 
上 。 原 因 是 条 件 中 包含 一 个 子 查询 ， 我 们 推迟 到 x 
5.3.2 节 中 讨论 。 然 而 ， 我 们 可 以 将 变换 应 用 到 图 N 


5-3 中 的 子 查询 上 。 我 们 从 子 查询 得 到 的 关系 代数 parn cin cee, 
表达 式 是 (9s,( MovieStar) ) 。 口 。 图 5-16 把 语法 分 析 权 转换 成 代数 表达 式 树 


5. 3.2 从 条 件 中 去 除 子 查 询 

对 于 < Condition > 中 包含 子 查询 的 语法 树 ， 我 们 将 引入 运算 符 的 中 间 形 式 ， 它 介 于 语法 分 析 
树 的 语法 类 与 作用 到 关系 上 的 关系 代数 运算 符 之 间 。 该 运算 符 通 常 被 称 为 两 参数 选择 。 我 们 将 
用 不 带 参 数 的 标签 为 o 的 结 点 表示 经 转换 后 的 语法 树 中 的 两 参数 选择 。 该 结 点 之 下 有 一 个 左 子 
结 点 ， 它 表示 要 对 其 做 选择 运算 的 关系 RR， 以 及 一 个 右 子 结 点 ， 它 表示 作用 到 关系 R 的 每 个 元 组 
上 的 条 件 表 达 式 。 两 个 参数 均 可 表示 为 语法 树 、 表 达 式 树 或 两 者 的 混合 。 

例 5.16 图 5-17 所 示 的 是 图 5-3 使 用 两 参数 选择 树 语法 树 的 重 写 。 由 图 5-3 构造 图 5-17 时 
进行 了 多 种 变换 : 

1. 图 5-3 中 的 子 查询 被 一 个 关系 代数 表达 式 所 替换 ， 已 在 例 3. 15 的 末尾 讨论 过 。 

2. 外 层 查询 用 $. 3. 1 节 的 select - from - where 表达 式 规则 也 已 经 进行 了 替换 。 不 过 ， 我 们 已 
将 必需 的 选择 表示 为 两 参数 选择 ， 而 不 是 常规 的 关系 代数 运算 符 r。 因 此 ， 标 有 < Condition > 的 
语法 树 的 上 屋 结 点 没有 被 替换 ， 而 仍旧 作为 选择 的 一 个 参数 ， 其 圆 括 号 和 < Query > 按 第 1 点 被 
关系 代数 替换 。 

这 棵 树 需 要 做 进一步 转换 ， 在 后 面 讨论 。 口 

我 们 需要 规则 使 我 们 能 够 用 单 参数 选择 与 其 他 关系 代数 运算 符 来 替换 两 参数 选择 。 每 种 形 
式 的 条 件 可 能 需要 其 自身 的 规则 。 在 普通 情形 ， 去 除 两 参数 选择 并 得 到 纯 关系 代数 表达 式 是 可 
能 的 。 然 而 ， 在 一 些 极端 情形 ， 两 参数 选择 可 任 其 原样 保留 并 认为 是 逻辑 查询 计划 的 一 部 分 。 


选择 条 件 的 限制 

有 人 可 能 感到 疑惑 ， 为 什么 我 们 不 允许 选择 运算 符 oc 中 的 C 包含 子 查询 。 在 关系 代数 
中 ， 一 个 运算 竺 的 自 变量 一 一 不 在 下 标 中 出 现 的 成 分 一 一 习惯 上 是 可 以 产生 关系 的 表达 式 。 
与 此 相反 ， 参 数 一 一 出 现在 下 标 中 的 成 分 一 一 具有 不 同 于 关系 的 类 型 。 例 如 ，orc 中 的 参数 C 
是 布尔 值 条 件 ，mz 中 的 参数 上 是 属性 列表 或 公式 。 

如 果 我 们 遵从 这 个 习惯 ， 则 一 个 参数 所 隐 含 的 无 论 是 什么 计算 均 可 应 用 到 关系 自 变量 的 
每 一 个 元 组 上 。 这 种 对 参数 使 用 的 限制 简化 了 查询 优化 。 作 为 对 比 ， 假 定 我 们 允许 像 oc(R) 
这 样 的 一 个 运算 符 ， 其 中 C 包含 一 个 子 查询 ， 则 将 C 应 用 到 尺 的 每 个 元 组 涉及 计算 子 查询 。 
我 们 要 为 R 的 每 个 元 组 重新 计算 它 吗 ? 那 将 是 不 必要 的 且 代 价 史 贵 ， 除 非 该 子 查询 是 相关 
的 ， 例 如 其 值 依赖 于 查询 语句 之 外 所 定义 的 某 些 值 ， 如 图 5-3 所 示 的 子 查 询 依赖 于 starName 
的 值 。 大 部 分 情形 下 ， 即 便 是 相关 子 查询 也 无 需 对 每 个 元 组 重新 计算 ， 条 件 是 我 们 正确 地 组 
织 计算 。 


























作为 一 个 例子 ， 我 们 将 给 出 处 理 图 5-17 中 涉及 IN 运算 符 条 件 的 规则 。 注 意 ， 这 个 条 件 中 的 
子 查询 是 不 相关 的 ， 即 该 子 查询 的 关系 可 以 只 计算 一 次 ， 与 要 被 检测 的 元 组 无 关 。 消 除 这 种 条 件 
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的 规则 非 正式 地 陈述 如 下 : 
。 假设 我 们 有 一 个 两 参数 选择 ， 其 中 第 一 个 参数 代表 某 个 关系 R， 第 二 个 参数 是 一 个 形 如 

t IN SKJ < Condition > ， 其 中 表达 式 S 是 一 T movieTitle 

MIETEN, 是 的 ( 某 些 ) 属 性 组 . | 

成 的 一 个 元 组 。 我 们 按 如 下 方式 对 树 作 ae 

变换 : StarsiIn <Condition> 

a) FAS 的 表达 式 的 树 替 换 < Condition > 。 
如 果 $ 有 重复 ， 则 在 S 的 表达 式 的 根部 <Attribute> IN, 
有 必要 包含 一 个 8 运算 ， 因 此 所 形成 的 | 
表达 式 所 产生 的 元 组 数 不 会 多 于 原始 查 starName O birthdate LIKE '%1960° 
询 产生 的 元 组 数 。 | 

b) 用 一 个 单 参数 选择 ee 替换 两 参数 选择 ， Moviestar 
其 中 C 是 元 组 上 的 每 个 分 量 与 关系 $ 中 图 5-17 使 用 两 参数 ex 的 表达 式 ， 介 于 语法 树 
相应 的 属性 取 等 值 的 条 件 。 与 关系 代数 之 间 


c) 给 ere 一 个 参数 ， 它 是 尺 与 $ 的 积 。 
图 5-18 描绘 了 这 个 转换 。 
o G 
p> | 
R <Condition> > x 


t IN S R 6 


八 | 
A 


Æ 5-18 本 规则 处 理 涉 及 IN 条 件 的 两 参数 选择 


例 5.17 考虑 图 5-17 中 的 树 ， 我 们 将 上 面 所 描述 的 用 于 IN 条 件 的 规则 应 用 到 该 树 上 。 在 
这 个 图 中 ， 关 系 尺 是 StarsIn， KAS 是 由 以 7, 为 根 的 子 树 所 构成 的 关系 代数 表达 式 的 结果 。 元 
组 上 有 一 个 分 量 ， 即 属性 starName。 

两 参数 选择 被 r， .所 替换 ; 它 的 条 件 C 是 元 组 i 的 一 个 分 量 与 查询 8 的 结果 的 属性 取 等 
值 。o 结 点 的 子 结 点 是 一 个 x 结 点 ，x 结 点 的 参数 是 标 有 StarsIn 的 结 点 以 及 5 的 表达 式 的 根 。 注 
意 ， 由 于 name 是 MovieStar 的 键 ， 没 有 必要 在 S 的 表达 式 中 引入 消除 重复 运算 符 5。 新 的 表达 式 如 
图 5-19 所 示 。 它 完全 是 关系 代数 ， 且 等 价 于 图 $-16 中 的 表达 式 ， 尽 管 其 结构 是 很 不 相同 的 。 ” 口 

当 子 查询 相关 时 ， 将 子 查询 翻译 成 关系 代数 的 策略 更 为 复 5 povienite 
杂 。 由 于 相关 子 查询 涉及 在 其 之 外 定义 的 未 知 值 ， 它 们 不 能 进行 Y 
孤立 的 翻译 。 确 切 地 ， 我 们 需要 对 子 查询 进行 翻译 ， 使 得 它 能 产 stariano = name 
生 一 个 出 现 了 某 些 特定 的 额外 属性 的 关系 ， 这 些 属性 在 以 后 将 与 N 
外 部 定义 的 属性 相 比较 。 然 后 把 从 子 查询 到 外 部 属性 的 相关 属性 人 
的 条 件 应 用 到 这 个 关系 上 ， 不 再 需要 的 额外 属性 可 以 投影 消除 。 aaa #3960" 
在 这 个 过 程 中 ， 如 果 该 查询 在 最 后 没有 消除 重复 ， 我 们 必须 避免 oe 
引入 重复 元 组 。 下 面 这 个 例子 说 明了 这 个 技术 。 

例 5.18 图 5-20 是 查询 “ 找 出 那些 在 制作 时 影星 的 平均 年 。 ”图 5-19 应 用 IN 条 件 规则 


c 


148 B 部 分 REFRA 








龄 至 多 为 40 的 电影 ”的 SQL 表示 。 为 简化 起 见 ， 我 们 将 birthdate 作为 出 生年 ， 这 样 我 们 可 以 取 
其 平均 得 到 一 个 值 ， 用 于 与 StarsIn 的 属性 movie- | SELECT DISTINCT mi.movieTitle, ml.movieYear 
Year 相 比 较 。 我 们 所 写 查 询 中 对 3 个 关系 引用 的 每 | EE aa aen 0 < € 
一 个 都 有 其 自身 的 元 组 变量 ,其 目的 是 提醒 我 们 各 SELECT AVG(birthdate) 
个 属性 来 自 何 处 。 WHERE m2 otarNane = e name AND 

图 5-21 显示 了 对 查询 进行 语法 分 析 以 及 部 分 movie te ~ n2. movieTitle AND 
翻译 成 关系 代数 后 的 结果 。 在 这 个 初步 翻译 过 程 | )， 
中 ,我们 把 子 查询 的 WHERE 子 句 分 解 成 两 个 ， 并 
使 用 该 子 句 的 一 部 分 把 关系 的 积 转换 成 等 值 连接 。 图 5-20 找 出 影星 年 龄 高 的 电影 
我 们 在 这 标 树 的 结 点 上 保留 了 别名 m, m 与 5， 目 的 是 使 每 个 属性 的 来 源 更 清晰 。 另 一 种 方法 
E, 我们 还 可 使 用 投影 来 更 新 属性 名 从 而 避免 属性 名 的 冲突 ,但 其 结果 将 更 加 难以 理解 。 
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| 


R ml .movieTitle, ml.movieYear 














° G 
a ~ 
StarsIn mł <Condition> 
7 SY Ava( s.birthdate) 
ml.movieyear 40 o m2.movieTitle = ml.movieTitle AND m2.movieYear = mi.movieYear 


m2.starName = s.name 


StarsIn m2 MovieStar s 


图 5-21 图 5-20 经 部 分 转换 后 的 语法 树 


为 了 移 去 < Condition > 结 点 并 消除 两 参数 r， 我 们 需要 创建 一 个 用 于 描述 Condition > 右 分 
支 上 关系 的 表达 式 。 然 而 ， 由 于 子 查询 是 相关 的 ， 无 法 从 子 查询 所 涉及 的 关系 StarsIn( 别名 是 
m2 ) 与 MovieStar 中 获得 属性 ml, movieTitle 或 ml. movieYear 。 因 此 ， 我 们 需要 延迟 选择 


Im2.movieTitle=m1.movieTitle AND m2.movieY ear-==m1.movieY ear 


直到 子 查询 中 的 关系 与 外 层 查 询 中 Starsin 的 拷贝 (其 别名 为 ml 的 拷贝 ) 相 结合 之 后 。 为 按 这 种 方 
式 转换 逻辑 查询 计划 ， 我 们 需要 修改 y 按 属性 m2. movieTitle 与 m2. movieYear 进行 分 组 ， 所 以 当 
需要 这 些 属 性 进行 选择 时 ， 它 们 便 可 获得 。 最 后 的 效果 是 我 们 为 子 查询 计算 一 个 由 电影 组 成 的 
关系 ， 其 每 个 元 组 由 title, yer 以 及 该 电影 的 平均 影星 出 生年 份 组 成 。 

修改 后 的 group-by 运算 符 出 现在 图 5-22 中 ; 除了 两 个 分 组 属性 外 ， 我 们 需要 把 平均 出 生日 
期 更 名 为 abd( average birthdate) ， 以 便 我 们 后 面 引 用 。 图 5-22 也 显示 了 完全 翻译 后 的 关系 代数 。 
fey 之 上 ， 外 层 关系 的 Starsin 与 子 查询 的 结果 相连 接 。 子 查询 的 选择 接着 作用 到 StarsIn 与 子 查 
询 结果 的 积 上 ; 我 们 把 这 个 选择 作为 6 连接 表示 ， 在 正常 应 用 代数 定律 后 就 会 如 此 。 在 6 连接 之 
上 是 另 一 个 选择 ， 这 个 选择 对 应 于 外 层 查 询 的 选择 ， 在 这 个 选择 中 ， 我 们 把 电影 的 year 与 它 的 
影星 平均 出 生年 份 进行 比较 。 代 数 表达 式 在 语法 树 顶 部 结束 ， 这 类 似 于 图 5-21 所 示 表 达 式 ， 投 
影 到 所 期 望 的 属性 上 并 消除 重复 。 





5 


| 


n ml.movieTitle, ml.movieYear 


o ml.movieYear—40 < abd 


bd 


BSE FURER 149 


m2.movieTitle = ml.movieTitle AND m2.movieYear = ml.movieYear 


Starsin ml Y m2.movieTitle, m2.movieYear, AVG(s.birthdate)—> abd 


m2.starName = s.name 


Starsin m2 


MovieStar s 


图 5-22 把 图 5-21 转换 成 逻辑 查询 计划 


正如 我 们 将 在 5.3.3 节 看 到 的 那样 ， 一 个 查询 优化 器 改进 查询 计划 还 有 许多 可 做 的 事情 。 这 
个 特殊 的 例子 满足 了 三 个 条 件 使 我 们 可 以 对 查询 计划 作 很 大 的 改进 。 这 些 条 件 是 : 


1. 重复 是 最 后 消除 的 。 
2. Starsin ml 中 的 影星 名 字 被 投影 掉 了 。 


3. StarsIn ml 与 表达 式 的 其 余部 分 之 间 的 连接 将 StarsIn ml 中 的 title, year 属性 与 StarsIn m2 


中 的 属性 取 等 值 。 

由 于 这 些 条 件 成 立 ， 我 们 可 以 分 别 用 m2. movieTitle 
与 m2. movieYear 替换 ml. movieTitle 与 m1. movieYear。 
因此 , 图 5-22 中 上 部 的 连接 是 不 必要 的 ， 参 数 
StarsIn ml 亦 如 此 。 这 个 逻辑 查询 计划 如 图 5-23 所 
示 。 口 


5.3.3 逻辑 查询 计划 的 改进 

当 我 们 把 我 们 的 查询 语句 转换 为 关系 代数 时 我 
们 获得 了 一 个 可 能 的 逻辑 查询 计划 。 下 一 步 是 用 在 
5.2 节 中 列 出 的 代数 定律 重 写 计 划 。 另 外 ， 我 们 可 能 
产生 多 个 逻辑 计划 ， 表 示 不 同 的 运算 符 顺 序 或 组 合 。 
但 是 在 这 本 书 中 我 们 假设 查询 重 写 模块 选取 它 认 为 
“最 佳 ” 的 单个 逻辑 查询 计划 ， 其 含义 是 该 计划 很 可 
能 最 终 得 到 最 便宜 的 物理 计划 。 
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n m2.movieTitle, m2.movieYear 


5 m2,movieYear—40 < abd 


Y m2.movieTitle, m2.movieYear, AVG(s.birthdate )—>-abd 


m2.starName = s.name 


StarsIn m2 MovieStar s 


图 5-23 图 5-22 的 简化 


然而 ， 我 们 没有 考虑 被 称 为 “连接 顺序 ”的 问题 ， 因 此 ， 涉 及 多 个 连接 关系 的 一 个 逻辑 查询 
计划 可 视 为 一 族 计划 ， 与 不 同 的 方法 相对 应 ， 连 接 可 被 排序 和 分 组 。 在 5. 6 节 我 们 讨论 如 何 选 择 
连接 顺序 。 类 似 地 ， 一 个 查询 计划 涉及 3 个 或 更 多 关系 作为 其 他 满足 结合 律 和 分 配 律 的 运算 符 的 
参数 ， 例 如 ， 并 ， 当 我 们 把 逻辑 计划 转换 为 物理 计划 时 应 当 假 定 允 许 重新 排序 或 重新 分 组 。 我 们 


在 5.4 节 中 讨论 有 关 排序 与 物理 计划 选择 等 问题 。 


5.2 节 中 有 许多 代数 定律 有 望 改 进 逻 辑 查 询 计划 。 下 列 定律 是 优化 器 中 最 常用 到 的 : 
© 选择 可 尽 可 能 深 地 推 入 表达 式 树 中 。 如 果 一 个 选择 条 件 是 多 个 条 件 的 AND ， 则 我 们 可 以 
把 该 条 件 分 解 并 分 别 将 每 个 条 件 下 推 。 这 个 策略 很 可 能 是 最 有 效 的 改进 技术 ,但 我 们 应 
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当 记 起 5. 2. 3 节 中 的 讨论 ， 在 那里 我 们 看 到 在 某 些 情形 下 首先 在 树 中 上 推选 择 是 必要 的 。 
。 类 似 地 ， 投 影 可 被 下 推 到 树 中 ， 或 新 的 投影 可 被 加 入 。 至 于 有 选择 时 下 推 投影 应 当 小 心 ， 
如 5.2.4 节 所 述 。 
。 重复 消除 有 时 可 以 消去 ， 或 移 到 树 中 更 方便 的 位 置 ， 如 $. 2. 6 节 所 述 。 
e 某 些 选择 可 以 与 其 下 面 的 积 相 结合 以 便 把 运算 对 转换 
成 等 值 连接 。 一 般 而 言 ， 计 算 等 值 连接 比分 别 计算 两 ™ movieTitle 
个 运算 要 有 效 得 多 。 我 们 已 在 5.2.5 节 讨论 过 这 些 | 
定律 。 
例 5. 19 我 们 考虑 如 图 5-16 所 示 的 查询 。 首 先 ， 我 们 
可 以 把 选择 的 两 部 分 分 解 成 Ø sarNome =nane 和 O birthdate like ‘%1960' 0 后 StarsIn O birthdate LIKE '%1960' 
者 可 以 下 推 到 树 中 ， 因 为 所 涉及 的 仅 有 属性 birthdate 来 自 关 | 





starName = name 


系 MovieStar。 第 一 个 条 件 涉及 积 两 边 的 属性 ， 但 它们 取 等 值 ， MovieStar 
Be MERER, TRIE RSI -2 图 5.24 查询 重 写 的 结果 
FINo 


5.3.4 可 结合 /可 分 配 的 运算 符 的 分 组 

满足 结合 律 与 交换 律 的 运算 符 可 视 为 具有 任意 多 个 操作 对 象 。 诸 如 将 连接 的 运算 符 看 作 和 多 
路 运算 符 使 得 我 们 可 以 重新 对 操作 对 象 排 序 ， 这 样 当 连接 作为 一 个 二 元 连接 序列 执行 时 ， 它 们 
所 花 时 间 将 比 按 语法 树 所 隐 伟 的 连接 顺序 的 执行 时 间 少 。 我 们 在 5. 6 节 讨 论 多 路 连接 的 排序 。 

这 样 ， 我 们 在 产生 最 终 的 逻辑 查询 计划 之 前 进行 最 后 一 步 : 对 于 子 树 的 由 相同 的 可 结合 和 
可 分 配 的 运算 符 结 点 所 组 成 的 每 一 个 部 分 ， 我 们 将 这 些 运 算 符 的 结 点 组 成 单个 具有 多 子女 的 结 
点 。 回 想 一 下 ， 常 用 的 满足 结合 律 与 分 配 律 的 运算 符 是 自然 连接 、 并 与 交 。 在 特定 情形 下 ， 自 然 
连接 与 9 连接 可 以 相互 结合 : 

1. 我 们 必须 用 6 连接 替换 自然 连接 ， 将 具有 相同 名 字 的 属性 取 等 值 。 

2. 我 们 必须 增加 一 个 投影 以 便 消 除 已 变 为 6 连接 的 自然 连接 中 涉及 的 重复 属性 。 

3. 连接 的 条 件 必须 是 可 结合 的 。 回 忆 一 下 ， 如 5.2.1 节 曾 讨论 的 ， 存 在 8 连接 不 满足 结合 
律 的 情形 。 

此 外 ， 积 被 认为 是 自然 连接 的 特例 ， 并 且 ， 如 果 在 树 中 与 连接 相 邻 则 与 连接 相 结合 。 图 5-25 
说 明了 这 种 变换 ， 该 变换 进行 的 情景 是 其 逻辑 查询 计划 中 有 由 两 个 并 运算 符 聚 簇 成 的 族 以 及 由 
三 个 自然 连接 运算 符 率 簇 成 的 族 。 注 意 ， 字 母 R 到 W 代表 任意 表达 式 , 不 一 定 是 存储 的 
关系 。 | 
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图 5-25 ”产生 逻辑 查询 计划 的 最 后 一 步 : 组 合 结合 律 与 交换 律 的 运算 符 
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5.3.5 习题 

习题 5. 3. 1 ”将 习题 5.1.3(a) 与 (b) 的 语法 树 转换 成 关系 代数 。 对 于 (a) ， 写 出 两 参数 选择 形式 以 及 最 终 转 
换 成 单 参数 (常规 oc) 选 择 的 形式 。 

习题 5. 3. 2 将 下 述 表 达 式 中 的 自然 连接 用 等 价 的 6 连接 与 投影 替换 。 说 明 所 得 9 连接 是 否 形 成 了 一 个 满足 
交换 律 与 结合 律 的 分 组 : i 
a) (R(a,b) va S(b, co) va (T (c, d) ra U (d, e)) 
b) (R(a, b) pa S(b, ¢)) bd (T (e, d) ma U(a,d)) 
c) (R(a,b) va S(b, ce)) ma Ra<T.e Tc,d) 

1 习题 5. 3. 3 ”给 出 一 条 规则 用 于 把 下 面 形式 的 每 一 < Condition > 转换 成 关系 代数 。 所 有 条 件 均 可 假定 是 ( 通 
过 一 个 两 参数 选择 ) 作 用 到 一 个 关系 R 上。 你 可 以 假设 子 查询 与 RR 不 相关 。 小 心 不 要 引信 或 消除 有 悖 于 
SQL 正式 定义 的 重复 。 

a) 形 如 a = ANY < Query > HA, Khe 是 RR 的 一 个 属性 。 
b) 形 如 a = ALL < Query > 的 条 件 ， 其 中 a 是 尺 的 一 个 属性 。 
c) 形 如 EXISTS( < Query > ) 的 条 件 。 

1 习题 5. 3. 4 重复 习题 5.3.3, 但 允许 子 查询 与 RR 相 关 。 为 简便 起 见 ， 你 可 假定 子 查询 具有 本 节 所 述 的 简单 
的 select-from-where 形式 ， 没 有 进一步 的 子 查询 。 

1 习题 5. 3.5 在 图 5-25 右边 的 分 组 树 可 由 多 少 种 不 同 的 表达 式 树 而 得 到 ? 记 住 分 组 后 子 结 点 的 次 序 未 必 反 
映 了 原始 表达 式 树 的 次 序 。 


5.4 ”运算 代价 的 估计 


已 对 一 个 查询 进行 了 语法 分 析 并 将 之 转换 成 一 个 逻辑 查询 计划 ， 下 一 步 我 们 必须 把 逻辑 计 
划 转 换 成 物理 计划 。 通 常 我 们 考察 由 逻辑 计划 派生 而 得 的 多 个 不 同 物 理 计 划 ， 并 对 每 个 物理 计 
划 进 行 评价 ， 或 估计 实现 这 个 转换 的 代价 。 经 过 这 种 评价 ， 通 常 称 为 基于 代价 的 被 举 ， 我 们 选择 
具有 最 小 估计 代价 的 物理 查询 计划 。 当 对 由 给 定 逻 辑 计 划 导 出 的 可 能 的 物理 计划 进行 枚 举 时 ， 
我 们 为 每 个 物理 计划 做 出 以 下 选择 : 

1. 满足 结合 律 与 分 配 律 的 运算 ， 如 连接 、 并 、 交 的 次 序 与 分 组 。 

2. 在 逻辑 计划 中 每 个 运算 符 的 算法 ， 例如， 决定 使 用 嵌 套 循环 连接 或 散 列 连 接 。 

3. 其 他 运算 符 ， 如 扫描 、 排 序 等 ， 它 们 是 物理 计划 所 需要 的 但 在 逻辑 计划 中 都 不 显 式 地 
存在 。 

4. 参数 从 一 个 运算 符 传送 到 下 一 个 运算 符 的 方式 ， 例 如 ， 通 过 在 磁盘 上 保存 的 中 间 结 果 或 
者 通过 使 用 选 代 算 子 (iterator) 并 每 次 传送 一 个 参数 的 一 个 元 组 或 一 个 主 存 缓冲 区 。 

为 了 做 出 每 项 选择 ， 我 们 需要 知道 各 个 物理 计划 的 代价 是 多 少 。 在 没有 执行 计划 的 情况 下 ， 
我 们 不 能 准确 知道 其 代价 。 执 行 一 个 查询 计划 几乎 总 是 比 查询 编译 器 选择 一 个 计划 所 做 的 工作 
多 得 多 。 因 此 ， 我 们 不 想 对 一 个 查询 执行 多 个 计划 ， 这 人 迫使 我 们 不 执行 计划 而 估计 该 计划 的 
代价 。 

在 我 们 讨论 物理 计划 枚 举 之 前 ， 首 先 必 须 考虑 如 何 准确 估计 这 些 计划 的 代价 。 这 种 估计 是 
基于 数据 的 参数 来 做 的 (参见 “概念 回顾 " 框 )， 这 些 参 数 要 么 精确 地 由 数据 计算 而 得 ， 要么 是 我 
们 在 5.5.1 节 讨 论 的 “统计 量 收集 ”过 程 来 估计 。 在 给 定 这 些 参数 值 的 情况 下 ,我们 可 以 对 关系 
大 小 进行 许多 合理 的 估计 ， 它 们 可 用 于 估计 完整 物理 计划 的 代价 。 


5.4.1 中 间 关 系 大 小 的 估计 
对 物理 计划 做 出 选择 的 目的 是 最 小 化 执行 查询 的 估计 代价 。 无 论 使 用 什么 方法 执行 查询 计 
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划 ， 无 论 查询 计划 的 代价 是 怎样 估计 的 ， 计 划 中 中 间 关 系 的 大 小 对 开销 有 重大 的 影响 。 理 想 的 情 
襄 是 我 们 可 得 到 估计 中 间 关 系 中 元 组 数 的 规则 ， 使 得 这 些 规 则 : 

1. 给 出 准确 的 估计 。 

2. 易于 计算 。 

3. 逻辑 上 一 致 ， 即 一 个 中 间 关 系 大 小 的 估计 不 依赖 于 该 关系 的 计算 方式 。 例 如 ， 多 个 关系 
连接 的 大 小 估计 不 应 当 依赖 于 我 们 计算 这 些 关系 连接 的 次 序 。 

但 是 不 存在 同时 满足 这 三 个 条 件 的 一 致 认同 的 方法 。 我 们 将 给 出 一 些 适合 于 大 多 数 情况 的 
简单 规则 。 幸 好 ， 大 小 估计 的 目标 不 是 准确 估计 大 小 ， 而 是 帮助 选择 一 个 物理 查询 计划 。 即 便 是 
一 个 不 准确 的 大 小 估计 方法 也 可 很 好 地 达到 这 个 目的 ， 只 要 该 方法 产生 的 误差 是 稳定 的 ， 也 就 
是 说 ， 如 果 大 小 估计 方法 赋予 最 佳 物理 查询 计划 最 小 的 代价 ， 即 使 该 计划 的 实际 代价 与 所 估计 


的 代价 不 同 。 
一 





概念 回顾 
回忆 一 下 4.1.3 节 中 我 们 用 来 表示 关系 大 小 的 惯用 记 法 ; 
e B(R) 是 容纳 关系 尺 所 有 元 组 所 需 的 块 数 。 
© T(R) 是 关系 民 的 元 组 数 。 
e V(R，a) 是 关系 尺 的 属性 a 的 值 计数 ， 即 关系 尺 中 属性 a 上 所 具有 的 不 同 值 的 数目 。 
HH, VR, [a,, a, +, oJ) RRARR ERM, =, a, 作为 一 起 考虑 时 所 出 
SLB A eK, Mar, (RO 中 的 不 同 元 组 数 。 











5.4.2 投影 运算 大 小 的 估计 

在 《4 数据库 系统 基础 教程 ( 原 书 第 3 版 )》5.2.5 节 中 的 扩展 投影 是 包 投影 并 且 不 去 除 重复 。 我 
们 将 一 个 传统 的 去 除 重复 的 投影 当 作 一 个 跟着 8 运算 符 的 包 投 影 。 包 的 扩展 投影 不 同 于 其 他 运算 
符 ， 因 为 结果 的 大 小 是 可 精确 计算 的 。 通 常 ， 投 影 时 元 组 大 小 缩减 ， 因 为 某 些 成 分 被 消除 。 然 而 
扩展 投影 允许 产生 新 的 成 分 ， 它 们 是 已 有 属性 的 组 合 ， 因 此 存在 这 样 的 情形 ， 其 7 运算 符 实际 
上 增加 了 关系 的 大 小 。 

例 5.20 假设 R(a，b，c) 是 一 个 关系 ， 其 中 a、b 是 4 字 节 长 的 整数 ，e 是 长 为 100 字 节 的 
字符 串 。 设 元 组 头 需 要 12 字 节 。 这 样 每 个 尺 元 组 占 120 字 节 。 设 块 为 1024 字 节 长 ， 其 中 块 首部 
占 24 字 节 。 因 此 每 块 可 存放 8 个 元 组 。 假 设 7(R) = 10 000, R PA 10 000 个 元 组 ， 则 
B(R) =1250; 

考虑 S$S=7,,,,,.(R)， 即 我 们 用 a 与 5 的 和 替代 a Md. S 的 元 组 占 116 字 节 : 首部 占 12 字 
节 ， 和 占 4 Ae, SRR A 100 字 节 。 虽 则 5 的 元 组 比 R 的 元 组 略 小 ， 但 我 们 可 以 仍然 在 一 个 块 
中 存放 8 个 元 组 。 因 此 ,7T(5) =10 000, B(S) =1250。 

MEREU = 7,,(R)， 其 中 去 掉 了 字符 串 成 分 。U 的 元 组 仅 占 20 FPK, T(V) PA 
10 000。 但 是 ， 我 们 现在 可 在 一 个 块 中 放 人 50 个 元 组 ， 故 BCU) =200。 从 而 该 投影 缩减 了 关系 
约 6 成 还 多 。 口 


5. 4.3 选择 运算 大 小 的 估计 

当 我 们 执行 选择 时 ， 一 般 而 言 是 减少 元 组 的 数目 ， 尽 管 元 组 的 大 小 保持 原样 。 最 简单 的 选择 
情形 即 一 个 属性 等 于 某 个 常量 ， 有 一 个 比较 容易 的 方法 估计 结果 的 大 小 ， 前 提 是 我 们 知道 或 可 
估计 该 属性 不 同 取 值 的 数目 。 令 $=o-.(R) ， 其 中 4 是 尺 的 属性 ，e 是 一 个 常量 。 则 我 们 推荐 如 
下 的 一 个 估计 : : 
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® T(S) =T(R)/V(R, A) 

如 果 属 性 4 的 值 是 从 所 有 可 能 的 取 值 当中 随机 选取 的 ， 以 上 规则 必然 成 立 。 

当选 择 中 涉及 非 等 值 比较 时 ， 大 小 估计 更 困难 ， 如 5S=o。(R)。 有 人 可 能 会 认为 平均 而 言 
有 一 半 元 组 满足 比较 条 件 而 另 一 半 不 满足 ， 因 此 T(R)/2 是 5 大 小 的 估计 。 然 而 ， 直 觉 上 涉及 非 
等 值 比 较 的 查询 倾向 于 产生 更 小 量 的 可 能 的 元 组 2 。 因 此 ， 我 们 提议 承认 这 种 倾向 的 规则 ， 并 假 
设 典型 的 不 等 值 比 较 将 返回 约 三 分 之 一 的 元 组 而 不 是 一 半 元 组 。 如 果 $ = o,.,(R)， 则 我 们 对 
T(S) 的 估计 是 : 

e T(S) =T(R)/3 

“不 等 "比较 的 情形 是 比较 少 的 。 但 是 ， 如 果 我 们 遇 到 像 $= oo(R) 这 样 的 选择 ,我 们 建议 . 
假设 所 有 的 元 组 将 满足 这 个 条 件 ， 即 取 T(S) = 7(R) 作 为 估计 。 另 外 ， 我 们 也 可 用 了 (3S) =. 
T(R)(V(R, a) -1)XY(R，a) 作 为 估计 ， 由 于 承认 约 有 17ZTY(R，a) 个 尺 元 组 不 满足 条 件 ， 因 为 
它们 的 a 值 确实 等 于 该 常量 , 它 比 前 一 估计 上 略 小 。 


Zipfian 分 布 

在 估计 oc 这 样 的 选择 时 ， 没有 必要 假定 所 有 4 的 值 都 均匀 地 出 现 。 事 实 上 ， 许 多 属性 
其 值 出 现 遵从 Zipfian 分 布 ， 其 中 第 i 个 最 公共 值 的 出 现 频 率 正比 于 1ANi 。 例 如 ， 如 果 最 公共 
值 出 现 1000 次 ， 则 第 二 最 公共 值 将 预期 出 现 1000A2 次 , 或 707 次 ， 而 第 三 最 公共 值 将 出 现 
约 1000/V3 次 或 577 次 。 原 先 该 分 布 用 于 描述 单词 在 英语 句子 中 出 现 的 相对 频率 ， 后 来 发 现 
该 分 布 出 现在 许多 种 数据 中 。 例 如 ， 在 美国 ， 州 人 口 遵 从 一 个 近似 的 Zipfian 分 布 。 人 口 最 多 
的 三 个 州 ， 加 利 福 尼 亚 、 得 克 萨 斯 和 纽约 ， 人 口 数 量 的 比例 接近 1:0. 62: 0.56， 对 比 Zipfian 
分 布 的 理想 值 为 1:0.71:0.58。 因 此 ， 如 果 State 是 描述 美国 人 口 的 关系 的 属性 ， 比 如 说 杂志 
订阅 者 清单 ， 我 们 预期 state 的 诸 值 按 Zipfian 分 布 而 不 是 均匀 分 布 。 

只 要 选择 条 件 的 常量 随机 选 定 ， 所 涉及 属性 诸 值 是 否 是 均 句 分布、Zipfian 分 布 或 其 他 分 
布 是 无关 紧要 的 ; 匹配 集合 的 平均 大 小 仍 将 是 T(R)AV(R，a)。 然 而 ， 如 果 常 量 的 选 定 也 遵 
从 Zipfian 分 布 ， 则 我 们 期 望 所 选择 集合 的 平均 大 小 会 比 T(R)AV(R，a) 稍 大 。 








当选 择 条 件 C 是 多 个 等 值 与 不 等 值 比较 的 AND 时 ， 我 们 可 把 选择 go。(R) 作 为 多 个 简单 选择 
的 级 联 ， 其 中 的 每 一 个 选择 只 检查 其 中 的 一 个 条 件 。 注 意 ， 我 们 安排 这 些 选择 的 次 序 是 没有 关系 
的 。 其 效果 是 结果 的 大 小 估计 是 原始 关系 的 大 小 乘 以 每 个 条 件 的 选中 率 因子 。 该 因子 对 于 任何 
不 等 值 比较 是 1/3， 对 于 头 是 1， 对 于 条 件 C 中 与 一 个 常量 相 比 较 的 任何 属性 4 取 1/V(R，4)。 

例 5.21 4 R(a, b, c) 是 一 个 关系 ，S = ownwscwm (RR)。 同 时 , & T(R) = 10 000, 
VCR, a) =50。 则 我 们 的 最 佳 T(5) 估 计 是 T(R)/(50 x3), 或 67。 即 RR 的 元 组 的 1/50 将 满足 
a =10 的 过 滤 ， 其 中 173 将 满足 b<20 过 滤 。 

一 个 有 兴趣 的 特别 情形 是 当 条 件 矛 盾 时 ， 此 时 我 们 的 分 析 失 效 。 例 如 ， 考 虚 5 = og, ww。>n(R)。 
根据 我 们 的 规则 ，7T(S) =T(R)/3V(R, a), R67 个 元 组 。 然 而 ,很 清楚 ,没有 元 组 能 同时 满足 
a=10 和 a>20， 雪 此 正确 答案 是 T(S) =0。 当 重 写 逻 辑 查询 计划 时 ， 查 询 优 化 器 可 查找 许多 特 
殊 情形 规则 的 实例 。 在 上 面 的 例子 中 ,优化 器 可 应 用 那些 用 于 查找 逻辑 上 等 值 于 FALSE 选择 条 
件 的 规则 ， 并 且 用 空 集 代 替 S 表达 式 。 g 

当选 择 涉及 OR 条 件 时 ， 比 如 说 S = euone(R) ， 则 我 们 关于 结果 的 大 小 更 难 确定 。 一 个 简 


日 ”例如 ， 如 果 你 拥有 关于 教 职 工 工资 的 数据 ， 你 是 更 可 能 查询 那些 挣 钱 小 于 20 万 美元 的 教 职 工 还 是 那些 挣 钱 多 于 
20 万 美元 的 教 职 工 ? 
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单 的 假设 是 没有 同时 满足 两 个 条 件 的 元 组 ， 因 此 结果 的 大 小 是 分 别 满 足 各 条 件 的 元 组 数 之 和 。 
该 度量 一 般 是 过 高 估计 ， 并 且 事实 上 有 时 会 引出 荒 计 的 结论 : S 中 的 元 组 数 比 原始 关系 R 中 的 
还 多 。 

一 个 稍 复杂 但 可 能 更 准确 的 对 下 式 大 小 的 估计 是 假设 C 与 C: 相互 独立 : 

S=Caora(R) 

WIR RA n STA, HFE m CREC, Am, 个 满足 C,， 我们 估计 S 中 元 组 的 数目 为 : 
n(1-(1l-m,/n)(1-m,/n). WF: 1 -mi/n 是 不 满足 Ci 的 那 部 分 元 组 ，1 - m/n 是 不 满 
Æ C, 的 那 部 分 元 组 。 这 两 数 之 积 是 不 在 $ 中 的 那 部 分 RR 的 元 组 ，1 减 去 这 个 积 就 是 那 部 分 属于 S 
的 元 组 。 

例 5.22 假设 R(a, 5) 有 TC(R) =10000 个 元 组 ,， H 

S = 0-10 ons <20(R) 

SVR, a) =50， 则 满足 a = 10 的 元 组 数 我 们 估计 为 200， 即 TCR)/V(R, a), WAL b <20 
的 元 组 数 我 们 估计 为 T(R)/3， 或 3333。 

对 $ 大 小 的 最 简单 的 估计 是 取 该 二 数 之 和 ， 或 3533。 基 于 条 件 e =10 与 5<20 的 独立 性 的 更 
为 复杂 的 估计 是 : 10 000(1 - (1 -200/10 000) (1 — 3333/10 000) 或 3466。 在 这 个 例子 中 ， 在 这 
两 个 估计 之 间 没 有 多 少 差别 ， 从 而 对 两 种 估计 的 选择 不 可 能 改变 我 们 对 最 佳 物理 查询 计划 的 估 
计 。 口 

可 能 出 现在 选择 条 件 中 的 最 后 一 个 运算 符 是 NOT。 满 足 条 件 NOT C 的 R 的 元 组 的 估计 数 是 
T(R) 减 去 满足 C 的 元 组 估计 数 。 


5. 4.4 连接 运算 大 小 的 估计 
我 们 在 此 只 考虑 自然 连接 。 其 他 连接 可 按 以 下 纲要 进行 处 理 ， 
L 等 值 连接 结果 中 的 元 组 数 在 考虑 到 变量 名 的 变化 后 可 按 自 然 连 接 那 样 计算 ， 例 5. 24 将 说 
明 这 一 点 。 
2. 其 他 6 连接 可 看 成 积 之 后 跟 一 个 选择 来 进行 估计 。 积 中 的 元 组 数 是 所 涉及 关系 的 元 组 数 
之 积 。 
在 开始 我 们 的 研究 之 前 假定 两 个 关系 的 自然 连接 只 涉及 两 个 属性 的 等 值 比较 。 即 ， 我 们 研 
究 连 接 R(X，Y)m S(Y，2Z) ,但 初步 地 我 们 假定 了 是 单个 属性 ， 当 然 、Z 可 代表 任何 属性 集 。 
问题 在 于 我 们 不 知道 尺 中 的 了 值 与 $ 中 的 了 值 是 如 何 联系 的 。 例 如 ， 
1. 两 个 关系 可 能 有 不 相交 的 了 值 集 合 ， 在 这 种 情况 下 ， 连 接 是 一 个 空 集 且 TRAS) =0。 
2.Y 可 能 是 S 的 键 并 且 是 R 的 外 键 ， 因 此 R 的 每 个 元 组 正好 与 $ 中 的 一 个 元 组 连接 ， 且 
T(R S) =T(R), 
3. 几乎 所 有 S 与 R 的 元 组 都 具有 相同 的 了 值 ， 在 这 种 情况 下 ，F(ReaS) 约 为 T(R)T(S) 。 
针对 最 通用 的 情形 ， 我 们 做 两 个 简化 的 假设 : 
。 值 集 的 包含 。 如 果 了 是 出 现在 多 个 关系 中 的 一 个 属性 ， 则 每 个 关系 从 值 y, ，yY,，… 的 一 
个 固定 列表 的 前 头 选择 其 值 并 且 取 尽 前 面 的 所 有 值 。 因 些 ， 如 果 丸 与 $ 是 具有 属性 了 的 
两 个 关系 ， 且 V(R, Y)<V(S, 了 )， 则 有 R 的 每 个 Y 值 将 是 5 的 一 个 了 值 。 
。 值 集 的 保持 。 如 果 我 们 把 关系 R 与 男 一 个 关系 连接 ， 则 不 是 连接 属性 的 属性 4( 即 两 个 关 
系 中 不 同时 拥有 ) 不 会 在 其 可 能 的 值 集中 丢失 值 。 更 准确 地 说 ， 如 果 4 JER 的 一 个 属性 但 
不 是 5 的 属性 , SW VRS, A) =V(R, 4)。 
假设 (1) 很 显然 会 被 违反 , 但 当 Y 是 5 中 的 键 且 是 R 中 的 外 键 时 ,假设 (1) 是 满足 的 。 在 许 
多 其 他 情形 也 近似 为 真 ， 因 为 直觉 上 我 们 预期 如果 S 有 许多 了 值 ， 则 一 个 出 现在 RR 中 的 给 定 了 
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值 有 较 大 的 机 会 出 现在 $ 中 。 

假设 (2) 也 可 能 被 违反 , 但 当 Rm5 的 连接 属性 是 $ 的 键 且 是 尺 的 外 键 时 它 为 真 。 事 实 上 ， 
(2) 被 违反 只 有 当 R 中 存在 “ 翘 挂 元 组 ”， 即 尺 中 不 与 $ 中 的 元 组 相连 接 的 元 组 ; HEBRE R pA 
在 “悬挂 元 组 ”， 该 假设 也 可 能 仍然 成 立 。 

在 这 些 假 设 下 ,我 们 可 以 对 R(X,， 了 7)mS(Y,，2) 的 大 小 做 如 下 估计 。 设 r 是 尺 中 的 一 个 元 
H, s 是 5 中 的 一 个 元 组 。r Als 在 属性 了 Y 上 相等 的 概率 是 多 少 ? Be VCR, YS VS, 7Y)。 由 
值 集 的 包含 假定 ， 则 s 的 了 的 值 肯定 出 现在 R 的 Y 值 当中 。 因 此 r 有 和 s 相同 的 了 值 的 概率 为 
1AV(R,，Y)。 类 似 地 ， 如 果 V(R, Y) <V(S, Y), 那么 r 的 了 值 将 会 出 现在 5 中, 并 且 有 
V/V(S, Y) 的 概率 r Als 有 相同 的 了 值 。 一 般 而 言 ， 我 们 将 在 Y 上 相等 的 概率 当 作 1/max(V(R,Y)， 
V(S, 7) ) ， 因 此 : 

è T( RAS) =T(R)T(S)/max(V(R, Y), V(S, Y)) 

例 5. 23 ”让 我 们 来 考虑 如 下 三 个 关系 及 其 重要 统计 值 : 

R(a, b) S(b, c) U(c,d) 
T(R) = 1000 T(S)=2000 T(U)= 5000 
V(R,b)=20 V(S,b)=50 
V(S,c)=100 V(U,c)= 500 

假定 我 们 要 计算 自然 连接 Rm4SmU。 方法 之 一 是 把 R 与 5 分 为 一 组 ， 即 (RS)mU。 我 们 
XF T(R aS) YAH T(R)T(S)/max(V(R, b), V(S, 5b))， 其 值 为 1000 x 2000/50, 或 40 000, 

RERE RSS 与 0 连接。 我们 对 结果 大 小 的 估计 是 T(RM45)T(U)/max(V(R™S, c), 
F(CV，e) 。 根 据 我 们 值 集 保 持 的 假设 ，Y(ReaS， c) 与 V(S, ec) 相同， 或 100; 也 就 是 说 ， 当 我 们 
做 连接 时 属性 c HEARS. FERRULE, RAT ROS DIU 中 的 元 组 数 作 估计 为 40 000 x 
5000/max(100, 500), ， 或 400 000, 

我 们 亦 可 以 5 与 也 连接 来 开始 。 如 果 这 样 ， 我 们 得 到 估计 T(SE DZ) = TCS) TCU) /max( V(S, 
c), V(U, c)) =2000 x5000/500 =20 000。 根 据 值 集 保持 的 假设 ,，V(SmaU, b) =V(S, b) =50， 
因此 结果 大 小 的 估计 是 : 


T(R)T(S MU)/ max(V(R, b), V(S va U,b)) 
即 为 1000 x20 000/50, =È 400 000, 口 


5.4.5 多 连接 属性 的 自然 连接 
HERRA, Yas, Z) 中 的 属性 集 了 包含 多 于 一 个 属性 时 ， 我 们 在 用 一 个 了 属性 进行 连 
接 时 的 参数 被 应 用 到 了 的 每 个 属性 上 ， 即 
。RmS 的 大 小 估计 是 通过 7(R) 乘 以 7(S)， 对 于 每 一 个 RR 与 5 的 公共 属性 y， 除 以 
VOR, VVCS, 7) 中 较 大 者 来 计算 。 
例 5.24 下 面 这 个 例子 使 用 上 面 的 规则 。 它 同时 说 明了 我 们 一 直 在 做 的 对 自然 连接 的 分 析 
适用 于 任何 等 值 连 接 。 考 虑 连接 : 


Ria, b, c) PI R.b=S.d AND R.c=S.e S(d, €, f) 
假设 我 们 有 以 下 大 小 参数 : 


R(a, b, c) S(d, e, f) 
T(R) 三 1000 T(S) = 2000 
V(R#,b)=20 V(S,d) =50 
V(R,c)=100 V(S,e) = 50 
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MRR R. b 5 S.d ARHAAKAHE, AR 与 $.e 看 成 相同 的 属性 ， 则 我 们 可 把 
这 个 连接 看 成 自然 连接 。 从 而 上 面 给 出 的 规则 告诉 我 们 RS 的 大 小 估计 是 积 1000 x 2000 除 以 
20 与 50 中 较 大 的 一 个 ， 再 除 以 100 与 50 中 较 大 的 数 。 因 此 ， 连 接 的 大 小 估计 是 1000 x 2000/ 
(50 x 100) =400 个 元 组 。 口 

例 5.25 我 们 重新 考虑 例 5.23, 但 是 考虑 第 三 种 可 能 的 连接 次 序 ， 其 中 我 们 首先 做 R(a， 
5b)mMU(c，d)。 这 个 连接 实际 上 是 一 个 积 ， 结 果 中 的 元 组 数 是 T(R)T(U) = 1000 x 5000 = 
5 000 000。 注 意 ， 积 中 不 同 4 KARHE VCR, b) =20， 不 同 e 的 数目 是 V(U, c) =500。 

当 我 们 将 这 个 积 与 9$(8，c) 相连 接 时 ， 我 们 乘 上 元 组 数 并 除 以 max(V(R, b), V(S, 45) 与 
max( V(U, c), V(S, c))o 3X84 2000 x 5 000 000/(50 x500) =400 000。 注 意 ， 第 三 种 连接 
方法 得 到 的 结果 大 小 估计 与 我 们 在 例 5. 23 中 得 到 的 相同 。 口 


5.4.6 多 个 关系 的 连接 
最 后 ,我们 来 考虑 自然 连接 的 一 般 情形 : 


S = Ri ™ Ro m---pa Ry 


假设 属性 4 出 现在 6 个 Ri 中， 在 这 上 个 关系 中 值 的 集合 的 个 数 ( 即 V(R,，4) 的 各 个 值 ， 其 
中 i=1,2,，…, 有 ) 是 vv, 志 … vp， 次序 从 最 小 到 最 大 。 假 设 我 们 从 每 个 关系 中 选 一 个 元 组 。 
所 选 元 组 在 属性 4 上 相同 的 概率 是 多 少 ? 

为 回答 这 个 问题 ， 考 虑 从 具有 最 小 数目 的 4 值 w 的 关系 中 选取 的 元 组 与 。 根 据 值 集 包 含 的 
假设 ,这 vz 个 值 中 的 每 一 个 值 在 其 他 具有 属性 4 的 关系 中 所 发 现 的 4 值 中 。 考 虑 属性 4 上 有 
个 值 的 关系 。 它 所 选 的 元 组 i; 在 属性 4 上 与 相同 的 概率 是 1/v;,。 由 于 这 个 结论 对 于 所 有 i =2， 
3 ，… ,上 均 为 真 ， 则 所 有 个 元 组 在 4 上 相同 的 概率 是 积 1/v,v，…v;。 这 个 分 析 为 我 们 估计 任何 
连接 的 大 小 给 出 了 一 条 规则 。 

。 从 每 个 关系 中 元 组 数 的 积 出 发 ， 然 后 ， 对 于 至 少 出 现 两 次 的 属性 4， 除 以 除了 V(R，4) 

中 最 小 值 之 外 的 所 有 值 。 

类 似 地 ， 我 们 可 以 对 连接 后 属性 4 的 值 的 数目 进行 估计 。 根 据 值 集 保持 假设 ， 该 值 就 是 这 些 
VCR, A) 中 最 小 的 一 个 。 

例 5. 26 考虑 连接 R(a,， b, c)S(b, c, d)U(b, e), 假定 重要 的 统计 值 如 图 5-26 所 
示 。 为 估计 这 个 连接 的 大 小 ， 我 们 由 各 个 关系 大 小 的 乘积 开始 ， 即 1000 x 2000 x 5000, Heat, R 
们 查找 那些 出 现 多 于 两 次 的 属性 。b 出 现 3 次 ，e 出 现 2 次 。 我 们 将 积 除 以 V(R, 5)、V(S, b), 
V(U,5) 中 较 大 的 两 个 值 ， 它 们 是 50 与 200。 最 后 ， 再 除 以 Y(R，e) 与 了 Y(S，c) 中 较 大 的 一 个 ， 
它 是 200。 估 计 结 果 是 : 

1000 x 2000 x 5000/ (50 x 200 x 200) =5 000 

我 们 也 可 估计 连接 中 每 个 属性 的 值 的 个 数 。 每 
个 估计 值 就 是 该 属性 所 出 现 的 所 有 关系 中 最 小 值 计 
BR HFa, b, c d, e 它们 各 自 的 估计 值 是 : 
100、20、100、400 和 500。 口 

基于 我 们 所 做 的 两 个 假设 一 一 值 集 的 包含 与 保 
持 一 一 我 们 得 到 上 面 给 出 的 估计 规则 的 一 个 令 人 惊 
讶 的 且 方 便 的 特性 ; 图 5-26 例 5.26 的 参数 

。 不 管 我 们 如 何 对 几 个 关系 的 自然 连接 中 各 项 进行 组 合 与 排序 ， 分 别 对 每 个 连接 应 用 估计 

规则 所 得 到 的 结果 大 小 是 相同 的 。 此 外 ， 这 个 估计 与 我 们 对 几 个 关系 作为 一 个 整体 来 连 









R(a, b,c) 
T(R) = 1000 
V(R,a) = 100 
V(R,b)=20 V(S,b)=50 V(U,b) = 200 
V(R,c) =200 V(S,c) = 100 

V(S,d) = 400 
V(U,e) = 500 


S(b, c,d) 
T(S) = 2000 


U(b,e) 
TD) = 5000 
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接 并 应 用 估计 规则 所 得 到 的 结果 大 小 估计 是 相同 的 。 例 5. 23 与 例 5. 25 是 对 3 个 关系 的 3 
种 组 合 方式 应 用 规则 的 一 个 说 明 ， 其 中 包括 了 连接 之 一 是 积 的 组 合 情 形 。 


5.4.7 其 他 运算 大 小 的 估计 

我 们 已 经 有 两 个 运算 一 一 选择 与 连接 一 和 它们 合理 的 估计 技术 。 进 一 步 ， 投 影 并 不 减少 
关系 中 的 元 组 个 数 ， 积 将 参数 关系 中 的 元 组 个 数 相 乘 。 然 而 ， 对 于 其 余 的 运算 ， 结 果 大 小 却 不 易 
确定 。 我 们 来 看 看 其 他 关系 代数 运算 符 并 给 出 一 些 如 何 进行 估计 的 建议 。 

并 

如 果 采 用 包 的 并 ， 则 其 大 小 正好 是 参数 大 小 之 和 。 集 合 的 并 可 以 大 至 两 参数 大 小 之 和 ， 也 可 
小 至 两 参数 之 较 大 者 。 我 们 建议 取 其 中 间 值 ， 例 如 ， 取 较 大 者 加 上 较 小 者 的 一 半 。 

交 

结果 可 以 少 至 0 个 元 组 或 多 至 两 参数 之 较 小 者 ， 无 论 采 用 集合 的 交还 是 包 的 交 。 方 法 之 一 是 
取 两 极端 的 平均 值 ， 即 较 小 值 的 一 半 。 

= 

当 我 们 计算 RR-5 时 ,结果 中 可 具有 7T(R) ETR) -7(S) 个 元 组 。 我 们 建议 估计 值 取 其 平均 
值 : T(R) -T(S)/2, 

消除 重复 

车 RCa,，a,，…，a,) 是 一 关系 ， 则 VR，[a,，a,，…，a,] ) 的 大 小 为 6(R)。 然 而 ,通常 
我 们 得 不 到 这 个 统计 值 ， 因 此 必须 取 近 似 值 。 在 极端 情形 下 ，5(R) 的 大 小 可 与 的 大 小 相同 (RR 
无 重复 元 组 ) 或 为 1(R 中 全 部 元 组 相同 )?。8(R) 中 元 组 数 的 另 一 个 上 限 是 可 能 存在 的 不 同 元 组 
的 最 大 数 : Y(R，oi) 之 积 ，i=1，2，…，n。 该 数 可 能 比 T(R) 的 其 他 估计 更 小 。 有 和 多 条 规则 可 
用 于 估计 T(5(R) ) 。 一 个 合理 的 估计 是 取 T(R)/2 与 所 有 V(R，a,) 之 积 中 较 小 的 一 个 。 

分 组 与 聚集 

假设 我 们 有 一 个 表达 式 y,(R) ， 要 估计 其 结果 的 大 小 。 若 统计 值 V(R, [g,, g,,…g,]) 已 
知 ， 其 中 g 是 工 中 的 分 组 属性 ， 则 它 就 是 我 们 的 答案 。 然 而 ， 这 个 统计 值 很 可 能 得 不 到 ， 因 此 
我 们 需要 寻找 另 一 种 方法 估计 yR) 的 大 小 。y,(R) 中 的 元 组 数 与 分 组 数 相同 。 结 果 中 的 数目 可 
能 只 有 一 个 分 组 ， 也 可 能 有 R 中 元 组 数 那么 多 的 分 组 。 与 5 一样 ,我们 也 可 据 V(R，4) 之 积 取 
分 组 数 的 上 界 ， 不 过 这 里 的 属性 4 只 取 工 中 的 分 组 属性 。 我 们 仍然 建议 该 估计 值 取 T(R)/2 与 这 
个 积 中 的 较 小 者 。 


5.4.8 习题 
习题 5. 4. 1 下 面 是 4 个 关系 WW、X、Y、2Z 的 关键 统计 值 : 
W (a,b) X (b,c) Y (c,d) Z(d,e) 
T(W)=40 T(X)=300  T(¥)=200 T(Z)= 100 
V(W,a)=50 V(X,b)=60 V(¥,c)=50 V(Z,d)=10 
V(W,b)=40 V(X,c)=100 V(Y,d)=20 V(Z,e) =50 
估计 下 列表 达 式 结果 关系 的 大 小 : 
a) W w X Y mZ b) Go=10 (W) c) Ocx20(Y) 
d) Oc=20(Y) cd Z e) WxY f) cd>10(2) 
g) a=1 AND =2(W) h) cai anD b>2(W) i) X m x.e<Y.c Y 


习题 5. 4.2 FHÆ4ATRRE, F, G、 五 的 统计 值 ; 





O 严格 地 说 , A RIEN R RER) 中 没有 元 组 ， 因 此 下 界 为 0。 但 是 我 们 很 少 对 这 种 特殊 情形 感 兴趣 。 
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E(a, b,c) F(a,b,d) G(a,c,d) H(b,c,d) 
T(E) =1000 T(F)=2000 T(G)=3000 了 (五 ) = 4000 
V(E,a)=500 V(F,a)=50 V(G,a)=500 V(H,b)= 400 
V(E,b)=100 V(F,b)=200 V(G,c)=300 V(H,c)= 200 
V(E,c)=20 V(F,d)=100 V(G,d)=100 V(H,d) = 800 
利用 这 一 节 中 的 估计 技术 ， 估 计 这 些 元 组 的 连接 会 产生 多 少 结果 元 组 ? 

1! 习题 5. 4. 3 假设 我 们 计算 R(a,，65)m4S(a, c), HP RY SENA 1000 个 元 组 。 每 个 关系 的 a 属性 均 有 
100 个 不 同 的 值 ， 并 且 它 们 是 相同 的 100 个 值 。 如 果 值 的 分 布 是 均匀 的 ， 如 每 个 ec 值 正好 在 每 个 关系 的 10 
个 元 组 中 出 现 ， 则 连接 结果 中 有 10 000 个 元 组 。 进 而 假设 100 个 a 值 在 每 个 关系 中 有 相同 的 Zipfian 分 布 。 
更 准确 地 ， 令 这 些 值 是 a,，a,，…，aiwm。 则 与 5 有 a 值 为 a 的 元 组 数 正 比 于 1AM 。 在 这 种 情形 下 ， 连 
接 有 多 少 个 元 组 ? 你 应 当 忽略 给 定 a 值 的 元 组 数 不 是 一 个 整数 的 情况 。 

! 习题 5. 4.4 你 如 何 估计 一 个 半 连 接 的 大 小 ? 


5.5 基于 代价 的 计划 选择 介绍 


无 论 是 选取 一 个 逻辑 查询 计划 还 是 从 一 个 逻辑 计划 构造 一 个 物理 计划 ， 查 询 优 化 器 都 需 
要 估计 特定 表达 式 的 代价 。 在 此 我 们 对 有 关 基 于 代价 的 计划 选择 问题 加 以 研究 ， 并 在 5. 6 节 
中 我 们 详细 探讨 基于 代价 的 计划 选择 中 最 重要 也 是 最 为 困难 问题 : 多 个 关系 的 连接 次 序 
选择 。 
与 以 前 一 样 ， 我 们 假设 计算 表达 式 的 代价 可 用 所 执行 的 磁盘 IO 数 来 加 以 近似 。 而 磁盘 IO 
又 受 以 下 因素 影响 

1L. 所 选取 用 于 实现 查询 的 特定 逻辑 运算 符 ， 这 是 在 我 们 选择 逻辑 查询 计划 时 所 选 定 的 。 

2. 中 间 关 系 的 大 小 ， 其 估计 我 们 已 在 5.4 节 中 讨论 过 。 

3. 用 于 实现 逻辑 运算 符 的 物理 运算 符 ， 例 如 ， 对 一 趟 或 两 趟 连接 的 选择 ， 对 给 定 关系 是 否 
加 以 排序 的 选择 ; 这 个 问题 在 5. 7 节 中 讨论 。 

4. 相似 运算 的 排序 ， 尤 其 是 在 5. 6 节 中 讨论 的 连接 。 

5. 由 一 个 物理 运算 符 向 下 一 物理 运算 符 传递 的 参数 ， 这 个 问题 也 在 5.7 节 中 讨论 。 

为 进行 有 效 的 基于 代价 的 计划 选 需 要 解决 许多 问题 。 在 这 一 节 中 ， 我们 首先 考虑 如 何 从 数 
据 库 中 有 效 地 获得 大 小 参数 ， 在 5.4 节 中 它们 对 估计 关系 大 小 是 很 关键 的 。 然 后 我 们 重新 回顾 为 
找到 所 希望 的 逻辑 查询 计划 而 引入 的 代数 定律 。 基 于 代价 的 分 析 证 实 了 我 们 使 用 许多 通用 的 启 
发 式 转换 逻辑 查询 计划 的 合理 性 ， 诸 如 在 树 中 下 推选 择 。 最 后 ， 我 们 考虑 可 由 所 选 逻 辑 计 划 导 出 
的 物理 查询 计划 的 各 种 方法 。 特 别 重 要 的 是 为 减少 所 需 评价 的 计划 数 的 方法 ， 而 同时 又 保证 很 
有 可 能 考虑 到 最 小 代价 的 计划 。 


5.5.1 大 小 参数 估计 值 的 获取 

5.4 节 的 公式 是 以 知道 某 些 重要 参数 为 基础 的 ， 特 别 是 7(R) ， 即 关系 R 中 的 元 组 数 ， 以 及 
VOR, a), RAR PRE a 列 的 不 同 值 的 数目 。 现 代 DBMS 一 般 允 许 用 户 或 管理 员 显 式 地 要 求 做 
统计 信息 的 收集 ,例如 7T(R) 和 V(R，a)。 这 些 统计 值 用 到 以 后 的 查询 优化 中 ,统计 量 仅 在 下 一 
个 统计 量 收 集 命令 发 出 时 才 被 更 新 。 

通过 对 整个 关系 RR 的 扫描 ， 显 然 可 以 得 到 元 组 数 T(R) 的 计数 ,并且 找 出 每 个 属性 4 的 不 同 
值 数目 KR，4) 。 尺 所 占用 的 块 数 B(R) 可 通过 实际 所 用 块 数 计数 ( 若 丸 是 聚 艇 存放) 或 通过 
TCR) 除 以 一 个 磁盘 块 可 以 容纳 的 尺 的 元 组 个 数 。 

此 外 ，DBMS 可 以 计算 一 个 给 定 属性 诸 值 的 直方 图 。 如 果 V(R，4) 不 是 太 大 ， 则 该 直方 图 由 
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具有 属性 4 的 每 个 值 的 元 组 的 数目 (或 比例 ) 组 成 。 如 果 这 个 属性 存在 大 量 不 同 值 ， 则 只 有 最 常 
出 现 的 值 被 单独 记录 ， 而 其 他 值 则 分 组 统计 。 最 常用 的 直方 图 类 型 是 : 

1. 等 宽 。 选 定 宽度 w 以 及 常量 mw。 提供 值 为 " 的 元 组 数 计数 ,v4 的 范围 是 vv <v, +w, 
vo +wsv<v,+2w, SS, (hv 是 最 小 可 能 值 或 当前 所 知 的 下 界 。 在 后 一 种 情况 ， 若 见 到 一 个 新 
的 更 小 的 值 ， 我 们 就 把 w 减少 w 并 在 直方 图 中 增加 一 个 计数 。 

2. 等 高 。 它 们 是 公共 的 “百分点 ”。 我 们 选择 某 个 小 数 p， 列 出 最 小 值 、 比 最 小 值 多 p 的 值 、 
比 最 小 值 多 2p 的 值 ， 直 到 最 大 值 。 

3. 最 频 值 。 我 们 列 出 最 为 公共 的 值 以 及 它们 的 出 现 次 数 。 这 个 信息 可 以 连同 所 有 其 他 值 作 
为 一 组 的 出 现 次 数 计数 一 起 提供 ， 或 除了 其 他 值 的 等 宽 或 等 高 直方 图 之 外 ， 我 们 再 记录 常 出 现 
的 值 。 

使 用 直方 图 的 一 个 优点 是 连接 的 大 小 估计 比 按 5.4 节 中 的 简化 方法 估计 更 准确 。 尤 其 当 连 接 
属性 的 值 显 式 地 出 现在 参加 连接 的 两 个 关系 的 直方 图 上 时 ， 我 们 可 以 准确 地 知道 结果 中 有 和 多少 
元 组 将 具有 该 值 。 对 于 那些 没有 显 式 地 出 现在 一 个 或 两 个 关系 直方 图 上 的 连接 属性 的 值 ， 我 们 
按 5.4 节 中 的 方法 估计 其 连接 后 的 结果 。 然 而 ， 如 果 我 们 使 用 等 宽 直 方 图 ， 两 个 关系 的 连接 属性 
有 相同 的 带宽 ， 则 我 们 可 以 估计 相应 带宽 上 连接 的 大 小 并 对 这 些 估 计 值 求 和 。 这 个 结果 是 好 的 
估计 ， 因 为 只 有 在 相应 带宽 上 的 元 组 才能 连接 。 以 下 例子 说 明了 如 何 进行 基于 直方 图 的 估计 ; 我 
们 在 后 面 不 使 用 直方 图 做 估计 。 

例 5.27 考虑 关于 3 个 最 频 值 及 其 计数 ， 以 及 对 其 余 值 进行 分 组 的 直方 图 。 假 设 我 们 想 要 
计算 连接 Ra, b) S(b, c) $R. b 的 直方 图 是 : 

1; 200, 0: 150, 5: 100， 其 他 值 : 550 
BD R BY 1000 个 元 组 中 ， 有 200 + b (HH 1, 150 b HHO, 100 b 值 为 5。 此 外 ， 有 550 个 元 
组 的 5 值 不 为 0、1、5， 且 其 余 值 中 的 任 一 值 出 现 次 数 不 超 过 100。 
令 sS. b 的 直方 图 是 : 
O: 100, 1: 80,2: 70, 其 余 值 : 250 
FHB VCR, 6) =14, V(S, b) =13。 即 , RERA b ER 550 个 元 组 被 分 成 11 个 值 ， 每 个 值 
平均 有 50 个 元 组 ，5 的 未 知 5 值 的 250 个 元 组 被 分 成 10 个 值 ， 每 个 值 平 均 有 25 个 元 组 。 

值 0 和 1 在 两 个 直方 图 中 显 式 地 出 现 ， 因 此 我 们 可 以 计算 出 旷 的 150 个 b=0 的 元 组 与 5 的 
100 个 具有 相同 5 值 的 元 组 连接 结果 有 15 000 个 元 组 。 类 似 地 ，200 个 b=1 的 尺 元 组 与 80 个 b= 
1 的 5 元 组 连接 结果 有 16 000 个 元 组 。 

对 其 余 元 组 影响 的 估计 则 更 为 复杂 。 我 们 将 继续 做 如 下 假设 : 在 具有 较 小 值 集 的 关系 (本 例 
是 5) 中 出 现 的 每 个 值 将 在 其 他 关系 的 值 集中 出 现 。 因 此 ,在 5 的 其 余 11 SOA, RAH 
中 值 之 一 是 2， 并 且 我 们 假定 另 一 个 值 是 5， 因 为 它 是 尺 中 最 常 出 现 的 值 之 一 。 我 们 估计 2 在 R 
中 出 现 50 次 , 5 在 5 中 出 现 25 次 。 这 些 估计 是 分 别 通 过 假设 该 值 是 它 的 关系 的 直方 图 中 “其 他 ” 
值 中 的 一 个 而 获得 的 。B 值 为 2 额外 的 元 组 数 是 70 x 50 =3500, b 值 为 5 的 其 余 元 组 数 是 100 x 
25 =2500。 

最 后 ， 在 两 个 关系 中 还 有 其 他 9 TOA, 我们 估计 它们 每 一 个 值 在 R 中 出 现 50 wk, HES 中 
出 现 25 次 。 因 此 9 个 值 中 的 每 一 个 给 结果 中 增加 的 元 组 数 是 50 x25 = 1230。 因 而 结果 大 小 的 估 
计 是 : 

15 000 + 16 000 +3500 +2500 +9 x1250 
或 48 250 个 元 组 。 注 意 ，5. 4 节 中 较为 简单 的 估计 是 1000 x500/14, 或 者 35 714， 它 是 基于 每 个 
关系 中 的 每 个 值 出 现 次 数 均 等 的 假设 。 口 
例 5. 28 在 这 个 例子 中 ， 我 们 假定 直方 图 等 宽 。 我 们 还 将 说 明 在 知道 两 个 关系 的 值 几乎 不 
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相交 的 情况 下 ， 如 何 影 响 对 连接 结果 大 小 的 估计 。 关 系 是 : 


Jan(day, temp) 
July(day, temp) 


查询 是 : 

SELECT Jan.day, July.day 

FROM Jan, July 

WHERE Jan.temp = July.temp; 
即 找 出 在 1 月 份 和 7 月 份 中 有 相同 温度 的 日 期 对 。 这 个 查询 计划 是 对 Jan July 在 温度 上 做 等 值 
连接 ， 然 后 投影 到 每 个 day 属性 上 。 

假设 关系 Jan 与 July 有 关 温度 的 直方 图 由 如 图 5-27 所 示 的 表 给 定 。 一 般 而 言 ， 如 果 两 个 连 








接 属性 有 相同 带宽 集 的 等 宽 直方 图 ， 则 我 们 可 以 通过 估计 相应 范围 | 1 月 | 7A 
带宽 的 每 一 对 的 连接 的 大 小 并 求 和 来 估计 连接 的 大 小 。 wel aj 9 

如 果 相 应 带宽 分 别 有 了 ST, 个 元 组 ， 且 在 这 一 带宽 中 值 的 20~29| 8| 0 
个 数 是 Y， 则 在 那些 带宽 上 连接 的 元 组 数 估计 是 T T,/V, 遵从 30-39 | 50) o 
5.4.4 节 中 制定 的 原则 。 对 于 图 5-27 的 直方 图 ， 许多 积 是 0， 因 50~59| 5| 20 
为 7 与 7 之 中 的 菜 一 个 为 0。 仅 有 的 两 个 均 不 是 0 的 带宽 是 Soze | Ol apo 
40 ~495 50 ~59, AX V=10 是 带宽 的 宽度 ，40 ~49 的 带宽 产 80~89| 0 60 
Æ 10 x5/10 =5 个 元 组 ， 而 50 ~ 59 带宽 则 产生 5 x 20/10 = 10 个 9-99} 0| 10 











元 组 。 

因此 这 个 连接 大 小 估计 是 5 + 10 = 15 个 元 组 。 如 果 我 们 没 
有 直方 图 ， 只 知道 每 个 关系 有 245 个 元 组 分 布 于 0 ~ 99 的 100 个 值 之 中 ， 则 我 们 对 连接 大 小 的 估 
计 是 245 x245/100 = 600 个 元 组 。 口 


5. 5.2 统计 量 的 计算 

在 查询 优化 器 中 ， 统 计量 通常 仅 是 周期 性 地 加 以 计算 ， 原 因 如 下 。 首 先 ， 这 些 统计 量 在 短 时 
间 内 不 会 发 生 剧 烈 变化 。 第 二 ， 即 使 不 太 确 的 统计 量 也 是 有 用 的 ， 只 要 它们 被 一 致 地 应 用 到 所 有 
的 计划 中 。 第 三 ， 另 一 个 可 选 的 办 法 是 保持 统计 量 为 当前 最 新 状态 ， 这 会 使 统计 自身 成 为 数据 库 
中 的 “热点 ”; 因为 统计 量 被 频繁 读 取 ， 我 们 倾向 于 不 对 它们 也 做 频繁 更 新 。 

统计 量 的 重新 计算 会 在 一 段 时 间 后 或 者 一 定数 目的 更 新 后 自动 被 触发 。 但 是 ， 当 数据 库 管 
理 员 注 意 到 性 能 很 差 的 查询 计划 会 经 常 被 查询 优化 器 选中 时 ， 他 们 可 能 会 要 求 重新 计算 统计 量 ， 
以 期 纠正 该 问题 。 

为 整个 关系 R 计 算 统 计量 可 能 会 开销 很 大 ， 尤 其 是 当 我 们 为 关系 中 的 每 个 属性 a HAVR, a) 
时 (或 者 更 坏 的 情况 ， 为 每 个 a 计算 直方 图 ) 。 一 个 通用 的 方法 是 通过 取样 小 部 分 数据 来 计算 大 
约 的 统计 量 。 例 如 ， 让 我 们 假设 我 们 想 要 取样 元 组 中 的 一 小 部 分 来 得 到 V(R，a) 的 估计 值 。 一 
个 统计 学 的 可 靠 计 算 可 能 是 复杂 的 ， 它 依赖 于 许多 假设 ， 如 一 个 属性 的 各 个 值 是 否 均 匀 分 布 ， 是 
按 Zipfian 分 布 ， 还 是 按 某 个 其 他 分 布 。 不 过 ， 直 观 上 是 这 样 的 ， 如 果 我 们 考察 R 的 一 小 部 分 抽 
样 ， 比 如 说 RR 的 1% 元 组 ， 并 且 我 们 发 现 我 们 所 看 到 的 大 部 分 a 值 是 不 同 的 ， 则 VCR, 2) RA RE 
接近 于 T(R)。 如 果 我 们 发 现 样本 中 只 有 很 少 不 同 的 a 值 ， 则 很 可 能 我 们 已 经 看 到 了 当前 关系 中 
存在 的 大 部 分 a 值 。 


图 5-27 温度 的 直方 图 


o 赤道 南部 的 朋友 应 当 将 1 月 份 与 7 月 份 的 列 对 调 。 
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5.5.3 减少 逻辑 查询 计划 代价 的 启发 式 估计 
有 关 查 询 、 子 查询 的 代价 估计 的 一 个 重要 用 途 是 应 用 查询 的 启发 式 变换 。 在 5. 3. 3 节 我 们 已 
经 看 到 ， 某 些 启发 式 ， 例 如 在 树 中 下 推选 择 ， 可 期 望 几 乎 肯定 会 改善 逻辑 查询 计划 的 代价 ， 而 无 
需 考虑 关系 的 大 小 。 然 而 ， 在 查询 优化 处 理 中 还 存在 其 他 方法 ， 据 一 个 转换 之 前 与 之 后 的 代价 估 
计 ， 当 该 转换 呈 低 代价 时 我 们 就 应 用 这 个 转换 ， 否 则 避免 使 用 这 个 转换 。 尤 其 是 当 正 在 产生 所 想 
要 的 逻辑 查询 计划 时 ， 我 们 可 能 考虑 许多 可 能 的 转换 以 及 这 些 转换 之 前 与 之 后 的 代价 。 
因为 我 们 正在 评估 逻辑 查询 计划 的 代价 ， 因 此 ， 我 们 还 没有 决定 使 用 哪些 将 被 用 于 实现 关 
系 代数 操作 符 的 物理 操作 符 ， 我 们 的 代价 估计 不 能 建立 在 磁盘 IO 上 。 人 恰恰 相反 ， 我 们 要 用 5.4 
节 的 技术 来 估计 中 间 结 果 的 大 小 ， 它 们 的 和 是 整个 逻辑 查询 计划 代价 的 启发 式 估 计 。 举 个 例子 
来 说 明 这 些 问 题 及 其 过 程 。 
例 5. 29 考虑 如 图 5-28 所 示 初 步 的 逻辑 查询 计划 ， 并 令 关 系 与 5 的 统计 量 如 下 所 示 : 
R(a,b) S(b,c) 
T(R) = 5000 T(S) = 2000 
V(R,a) = 50 
V(R,b) = 100 V(S,b) = 200 
V(S,c) = 100 
为 从 图 5-28 产生 最 终 的 逻辑 查询 计划 ， 我 们 坚持 尽 可 能 下 推选 择 。 不 过 ， 我 们 不 能 确信 下 
推 5 到 连接 下 面 是 否 有 意义 。 因 此 ， 我 们 由 图 5-28 产生 了 如 5 
图 5-29 所 示 的 两 个 查询 计划 ; 它们 的 不 同 之 处 在 于 ， 是 在 连 
接 之 前 还 是 在 连接 之 后 消除 重复 。 注 意 ， 在 计划 a 中 5 被 下 推 Gu -10 
到 树 的 两 个 分 支 中 。 如 果 忆 与 5S 已 知 无 重复 ， 则 分 支 中 的 6 | 
可 以 去 除 。 D< 
在 5.4 .3 节 中 ,我 们 已 经 知道 如 何 估计 选择 结果 的 大 小 ; 一 个 
我 们 将 T(R) 除 以 VLR，o) = 50。 并 且 我 们 也 知道 如 何 估计 过 R 5 
接 的 大 小 ; 我 们 将 参数 的 大 小 相 乘 并 除 以 max(V(R, b), 图 5-28 例 5.29 的 逻辑 查询 计划 
V(S, 5))， 即 200。 我 们 所 不 知道 的 是 重复 消除 之 后 关系 大 小 的 估计 。 
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图 5-29 最 佳 逻辑 查询 计划 的 两 个 候选 计划 
首先 考虑 6( oio《(R) ) 的 大 小 估计 。 由 于 o。.w(R) 只 有 一 个 4 值 却 有 100 个 5b 值 ， 并 且 这 个 
关系 估计 有 100 个 元 组 ，5.4.7 节 的 规则 告诉 我 们 ， 每 个 属性 的 值 计数 之 积 不 是 一 个 限定 因子 。 
因此 ， 我 们 估计 8 结果 大 小 是 o。_w (RR) 元 组 数 的 一 半 。 所 以 ， 图 5-29a 说 明了 6( ow《(R) ) 元 组 
数 估计 是 50。 
现在 考虑 图 5-29b 中 5 结果 的 估计 。 连 接 有 一 个 a fA, b 值 个 数 估计 是 min(V(R, b), 
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V(S, b)) =100, ¢ 值 个 数 估计 是 VS, c) =100。 因 此 值 计 数 的 乘积 不 限制 5 的 结果 大 小 。 我 们 
估计 这 个 结果 是 500 个 元 组 ， 或 连接 中 一 半 的 元 组 数 。 

为 比较 图 5-29 中 的 两 个 计划 ， 我 们 把 除了 根 结 点 与 叶 结 点 之 外 的 所 有 结 点 的 大 小 估计 相 加 。 
我 们 排除 根 结 点 与 叶 结 点 ， 是 因为 这 些 结 点 的 大 小 不 依赖 于 计划 的 选取 。 对 于 计划 a， 这 个 代 
价 ， 即 内 部 结 点 估计 大 小 之 和 ， 是 100 +50 +1000 =1150， 而 计划 b 的 和 是 100 +1000 = 1100。 因 
此 ， 根 据 这 个 小 差额 我 们 推 知 延 迟 重 复 消 除 到 最 后 是 一 个 较 好 的 计划 。 我 们 可 能 得 出 相反 的 结 
论 ， 比 如 说 如 果 R 或 5 只 有 少量 5b 值 。 此 时 连接 的 尺寸 会 更 大 ， 使 得 计划 b 的 代价 更 大 。 口 


结果 大 小 的 估计 不 必 相 同 
注意 ,在 图 5-29 中 ， 两 树 根部 的 估计 不 同 : 一 个 是 230， 另 一 个 是 500。 因 为 估计 是 一 
个 不 精确 的 科学 ， 这 类 异常 必然 发 生 。 事 实 上 ， 这 是 我 们 保证 一 致 性 的 一 个 例外 ， 如 我 们 在 
5.4.6 节 中 所 做 的 那样 。 
直观 上 ， 计 划 b 的 估计 较 离 是 因为 如 果 届 与 $ 中 有 重复 ， 这 些 重复 在 连接 中 会 相 乘 。 例 
如 ， 对 于 民 中 出 现 3 次、S 中 出 现 2 次 的 元 组 ， 它 们 的 连接 在 及 4S 中 会 出 现 6 次 。 我 们 用 于 
估计 6 结果 大 小 的 简单 公式 没有 考虑 重复 的 效果 被 先前 的 运算 放大 的 可 能 性 。 




















5.5.4 枚 举 物理 计划 的 方法 
现在 我 们 来 考虑 在 逻辑 查询 计划 到 物理 查询 计划 的 转换 中 如 何 使 用 代价 估计 。 底 线 方法 称 
为 穷尽 法 (exhaustive) ， 它 对 5.4 节 开 始 部 分 列 出 的 各 种 问题 中 的 每 一 个 选择 加 以 组 合 (连接 的 次 
序 或 运算 符 的 物理 实现 等 等 ) 。 每 个 可 能 的 物理 计划 被 赋予 一 个 估计 的 代价 ， 并 选择 具有 最 小 代 
价 的 一 个 计划 。 
不 过 ， 存 在 多 种 选择 物理 计划 的 方法 。 在 这 一 节 ， 我 们 将 概述 已 被 使 用 的 各 种 方法 ，5. 6 节 
主要 关注 选择 连接 次 序 。 在 继续 讲解 之 前 ， 我 们 先 对 搜索 可 能 的 物理 计划 空间 的 两 个 主要 方法 
加 以 说 明 : 
e 自 顶 向 下 : RE, 我们 从 人 逻辑 查询 计划 树 的 根部 开始 向 下 进行 。 对 于 根 结 点 的 运算 的 每 
个 可 能 的 实现 ,我们 考虑 计算 其 参数 的 每 种 可 能 的 方法 ， 并 计算 每 种 组 合 的 代价 ， 取 最 
优 的 一 个 .9 

© 自 底 向 上 ; 对 于 逻辑 查询 树 的 每 个 子 表达 式 ， 我 们 计算 用 于 计算 该 子 表 达 式 的 所 有 可 能 
方法 的 代价 。 通 过 考虑 子 表达 式 E 的 各 种 选项 ， 并 按 所 有 可 能 的 方式 与 E 的 根 运算 符 的 
实现 相 结合 ， 可 以 计算 子 表达 式 巨 的 可 能 性 与 代价 。 

实际 上 ， 在 最 概括 的 解释 方面 两 种 方法 之 间 没 有 太 大 的 区 别 ， 因 为 每 一 方法 都 考虑 了 实现 
查询 树 中 各 运算 符 各 种 方式 的 组 合 。 下 面 我 们 集中 在 自 底 向 上 的 方法 中 。 

实际 上 ， 你 可 能 已 经 注意 到 自 底 向 上 方法 已 有 明显 的 简化 ， 其 中 我 们 在 计算 较 大 子 表 达 式 
的 计划 时 只 考虑 每 个 子 表达 式 的 最 佳 计 划 。 这 个 方法 ， 在 下 面 的 方法 表 中 称 为 动态 规划 (dynamic 
programming) ， 不 保证 产生 整体 最 优 计 划 ， 尽 管 它 常常 可 获得 最 优 。 后 面 也 列 出 了 称 为 Selinger 
凤 格 (或 System-R 风格 ) 的 优化 方法 ， 它 利用 了 一 个 子 表 达 式 计划 中 的 某 些 计划 所 具有 的 特性 ， 
目的 是 为 了 从 对 于 某 些 子 表达 式 不 是 最 优 的 计划 中 得 到 总 体 上 最 优 的 计划 。 

启发 式 选择 

方法 之 一 是 使 用 通常 用 于 选择 逻辑 计划 的 方法 选择 物理 计划 ， 基 于 启发 式 规则 做 一 系列 选 





日 ”记得 在 5.3.4 节 中 讲 到 逻辑 查询 计划 树 的 单个 结 点 可 能 表示 单个 可 交换 、 可 结合 运算 符 的 各 种 使 用 方法 ， 如 连 
接 。 因 此 ， 考 虑 单个 结 点 的 所 有 可 能 计划 本 身 可 能 涉及 非常 多 选择 的 枚 举 。 
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择 。 在 5. 6.6 节 中 ， 我 们 将 讨论 连接 次 序 的 “ 贪 禁 " 启发 式 ， 该 方法 中 我 们 从 连接 两 个 具有 最 小 
估计 大 小 的 关系 开始 ， 然 后 对 这 个 连接 结果 以 及 参与 连接 的 关系 集合 重复 这 个 过 程 。 有 许多 可 
应 用 的 启发 式 规则 ; 下 面 是 一 些 最 常用 的 : 

1. 如 果 罗 辑 计 划 需 要 选择 o,..(R)， 且 保存 的 关系 R EREA 上 有 索引 ， 则 执行 一 个 索引 
扫描 ( 像 4.1.1 节 中 那样 ) ， 获 得 4 值 等 于 c 的 尺 元 组 。 

2. 更 一 般 地 ， 如 果 选 择 涉及 像 上 面 4 = 那样 的 一 个 条 件 以 及 其 他 条 件 ， 我 们 可 以 先进 行 一 
次 索引 扫描 ， 然 后 对 元 组 中 进一步 选择 来 实现 这 个 选择 ， 我 们 将 用 物理 运算 符 filter 来 表示 。 有 
关 这 个 问题 在 5.7. 1 节 中 做 进一步 讨论 。 

3. 如 果 连 接 的 一 个 参数 在 连接 属性 上 有 索引 ， 则 采用 索引 连接 ， 其 中 该 关系 在 内 层 循 环 中 。 

4. 如 果 连 接 的 一 个 参数 是 排序 的 ， 则 采用 排序 连接 比 用 散 列 连接 好 ， 尽 管 未 必 比 用 索引 连 
接 好 ， 如 果 可 能 的 话 。 

5. 当 计 算 三 个 或 多 个 关系 的 并 或 交 时 ， 先 对 最 小 关系 进行 组 合 。 

分 支 界定 计划 枚 举 

这 个 方法 在 实际 中 经 常 使 用 ， 它 通过 使 用 启发 式 为 整个 逻辑 查询 计划 找到 一 个 好 的 物理 计 
划 开 始 。 令 这 个 计划 的 代价 为 C。 然 后 当 我 们 考虑 这 个 子 查询 的 其 他 计划 时 ， 我 们 可 以 去 除 那 些 
代价 大 于 6 的 子 查询 的 计划 ， 因 为 这 个 子 查询 的 计划 不 可 能 参与 到 比 我 们 已 知 计划 更 好 的 完整 
查询 的 计划 中 。 类 似 地 ， 如 果 我 们 构造 出 代价 小 于 C 的 完整 查询 的 一 个 计划 ， 则 我 们 在 此 后 的 
物理 查询 计划 空间 搜索 中 用 较 好 计划 的 代价 替换 C。 

这 种 方法 一 个 重要 的 好 处 在 于 我 们 可 以 判定 何 时 中 止 搜索 并 得 到 目前 为 止 最 优 的 计划 。 例 
如 ， 如 果 代 价 C 较 小 ， 即 便 可 以 发 现 更 好 的 计划 ， 但 为 找到 这 些 计 划 所 花费 的 时 间 可 能 超过 C， 
因此 继续 搜索 是 没有 意义 的 。 但 是 ， 如 果 C 较 大 ， 则 花 点 时 间 希 望 找 到 一 个 更 快 的 计划 是 明 
智 的 。 

We wk 

这 个 方法 从 一 个 根据 启发 式 选 定 的 物理 计划 开始 ， 实 际 上 我 们 是 在 物理 计划 与 代价 的 一 个 
“峡谷 ”中 进行 搜索 。 接 着 我 们 可 以 对 计划 做 小 的 修改 ， 如 用 另 一 种 方法 替换 执行 一 个 运算 符 的 
一 个 方法 ， 或 通过 使 用 结合 律 与 /或 交换 律 对 连接 重新 排序 ， 找 到 具有 较 低 代价 的 “邻近 "计划 。 
当 我 们 找到 一 个 计划 ， 小 小 的 修改 已 不 能 产生 代价 更 低 的 计划 ， 则 选择 这 个 计划 作为 选 定 的 物 
理 查 询 计 划 。 

动态 规划 i 

在 这 个 一 般 性 自 底 向 上 策略 的 变种 策略 中 ， 对 于 每 个 子 表达 式 ， 我们 仅 保 留 最 小 代价 的 计 
划 。 当 我 们 自 底 向 上 对 这 棵 树 进行 处 理 时 ， 假 定 每 个 子 表达 式 使 用 了 最 佳 计划 ， 我 们 对 每 个 结 点 
的 可 能 实现 加 以 考虑 。 我 们 在 5.6 节 深 入 研究 这 个 方法 。 

Selinger 风格 的 优化 

这 个 方法 改进 了 动态 规划 方法 ， 不仅 记录 了 每 个 子 表达 式 的 最 小 代价 的 计划 ， 而 且 也 记录 
了 那些 具有 较 高 代价 但 所 产生 结果 的 顺序 对 表达 式 树 中 较 高 层 很 有 用 的 计划 。 这 类 感 兴 趣 顺 序 
的 例子 是 当 子 表达 式 的 结果 按 以 下 属性 排序 : 

1. ERAS LA (DC) 运算 符 中 说 明 的 属性 。 

2. 稍 后 的 分 组 运算 符 (y) 的 分 组 属性 。 

3. 稍 后 的 连接 运算 的 连接 属性 。 . 

如 果 我 们 把 一 个 计划 的 代价 视 为 是 中 间 关 系 大 小 之 和 ， 则 对 一 个 参数 进行 排序 似乎 没有 什 
么 优点 。 然 而 ， 如 果 我 们 使 用 更 准确 的 度量 ， 如 磁盘 IO 数 ， 作 为 代价 ， 则 当 我 们 使 用 4.4 节 中 
基于 排序 的 算法 之 一 对 某 一 参数 排序 ， 其 优点 就 变 得 清晰 了 ， 为 已 排序 的 参数 节省 了 第 一 趟 
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工作 。 


5.5.5 习题 
习题 5. 5. 1 UA R. b+ S. b 的 直方 图 估计 连接 R(a, 58)b4S(56，c) 的 大 小 。 假设 V(R, b) =V(S, b) =20, 
两 个 属性 的 直方 图 给 出 了 4 个 最 公共 的 值 的 频率 ， 列 表 如 下 : 
0 1 2 3 4 其 他 
Rb 5 4 10 5 36 
Sb 10 8 5 7 50 
假定 所 有 20 个 值 等 可 能 发 生 ， 其 中 TCR) =60 且 T(S) =80， 这 个 估计 与 较 简单 的 估计 相 比 怎样 ? 
习题 5. 5. 2 ”如 果 我 们 有 如 下 直方 图 信息 ， 估 计 连 接 R(a, 4b)m4 5S(5，c) 的 大 小 : 
b<0/56=0]|]b>0 


R 400 100 200 
S 400 300 800 


! 习题 5. 5. 3 在 例 5. 29 中 ， 我们 建议 减少 两 个 名 为 5 的 属性 的 值 的 数目 ， 这 可 能 使 图 5-29 中 的 计划 (a) 比 
计划 (b) 更 好 。 对 于 什么 样 的 值 : 
a) VCS, b) 
b) VCR, b) 
将 使 计划 (a) 比 计 划 (b) 的 代价 更 低 ? 
! 习题 5. 5. 4 考虑 4 个 关系 及 、S、T 与 Vy。 它 们 各 自分 别 有 100, 200, 300 与 400 个 元 组 ， 随 机 并 相互 独立 
地 从 1000 个 元 组 的 同一 池 中 选取 。( 例如， 给 定 元 组 在 中 的 概率 是 1/10, 在 S$ 中 是 1/5, 同时 在 R 与 5 
中 的 概率 是 1/50)。 
a)ROSOTOV 所 期 望 的 大 小 是 多 少 ? 
b) 什 么 样 的 交 的 顺序 得 到 最 小 的 代价 (估计 中 间 关 系 大 小 的 总 和 )? 
c)RUSUTUV 所 期 望 的 大 小 是 多 少 ? 
d) 什 么 样 的 并 的 顺序 得 到 最 小 的 代价 (估计 中 间 关 系 大 小 的 总 和 )? 
! 习题 5. 5.5 如 果 4 个 关系 有 从 1000 个 元 组 中 随机 抽取 的 250 个 元 组 ， 重 复习 题 5. 5. 4。 
! 习题 5. 5.6 假设 我 们 希望 计算 表达 式 


7(R(a, b) pa S(b, c) mT(d,a)) 


即 我 们 把 3 个 关系 做 连接 得 到 在 属性 上 排序 的 结果 。 我 们 做 简化 的 假设 : 
i 我 们 不 会 先 对 尽 与 了 做 连接 ， 因 为 那 是 一 个 积 。 
i 任何 其 他 连接 可 用 一 个 两 趟 排序 连接 或 散 列 连 接 进 行 ， 但 不 采用 其 他 的 方式 。 
ii 任何 关系 ,或 任何 表达 式 的 结果 ， 可 用 两 阶段 、 多 路 排序 归并 算法 排序 ， 但 不 采用 任何 其 他 算法 。 
iv. 第 一 次 连接 的 结果 将 作为 参数 传送 给 最 后 的 连接 ， 一 次 一 块 ， 在 磁盘 上 不 临时 存放 。 
v. 每 个 关系 占 1000 块 ， 两 个 关系 的 任 一 连接 结果 占 5000 块 。 
基于 这 些 假 设 回答 以 下 问题 : 
a) Selinger 风格 的 优化 将 考虑 所 有 什么 样 的 子 表达 式 与 顺序 ? 
b) 哪 个 查询 计划 得 到 最 小 的 磁盘 IO 数 ?9 
1! 习题 5. 5. 7 对 于 某 些 表达 式 E、F( 你 可 以 选择 ) ， 给 一 个 形 如 下 eq 天 的 逻辑 查询 计划 的 例子 ， 其 中 使 用 最 
佳 计 划 计算 EE 与 F 不 允许 为 最 后 的 连接 选择 算法 ,该 算法 用 于 最 小 化 计算 整个 表达 式 的 总 的 代价 。 对 于 
可 用 的 主 存 缓冲 区 数目 与 EE、 下 中 所 提 及 的 关系 大 小 做 你 所 希望 的 假设 。 





O ”注意 ， 由 于 我 们 做 了 使 用 连接 方法 某 些 特别 的 假设 ,我 们 可 以 估计 磁盘 1/0 数 ， 而 不 是 依赖 于 更 简单 的 但 更 不 正 
确 的 元 组 计数 作为 代价 估计 。 
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5.6 连接 顺序 的 选择 


在 这 一 节 中 ， 我 们 着 眼 于 基于 代价 的 优化 中 的 关键 问题 : 为 三 个 或 三 个 以 上 关系 的 ( AR) 
连接 选择 顺序 。 该 思想 同样 适用 于 其 他 像 并 和 交 这 样 的 二 元 运算 ， 但 是 在 实际 应 用 中 这 些 运算 
并 不 是 那么 重要 ， 因 为 他 们 与 连接 相 比 ， 只 需要 很 少 的 时 间 ， 并 且 它 们 很 少 以 连续 三 个 或 三 个 以 
上 的 形式 出 现 。 


5.6.1 连接 的 左右 参数 的 意义 

当选 择 连 接 顺序 时 ,我们 应 该 记 住 在 第 4 章 中 提 到 的 连接 方法 中 大 多 数 是 不 对 称 的 ， 在 这 种 
意义 上 来 说 ， 两 个 参数 关系 所 代表 的 意义 是 不 同 的 ， 这 些 连接 的 代价 取决 于 哪 种 关系 代表 何 种 
意义 。 可 能 最 为 重要 的 连接 是 在 4.2.3 节 介绍 的 一 趟 连接 ， 它 将 一 个 关系 ( 较 小 的 优先 ) 读 和 人 主 
存 ， 并 形成 一 种 结构 ， 例 如 一 个 散 列 表 ， 从 而 可 以 便利 地 匹配 来 自 其 他 关系 中 的 元 组 。 然 后 
该 连接 再 读 人 其 他 关系 ,每 次 一 块 ， 并 将 关系 中 的 元 组 和 已 存储 在 内 存 中 的 元 组 进行 连接 
运算 。 

例如 ， 假 设 当 我 们 选择 一 个 物理 计划 时 ， 我 们 决定 用 一 趟 连接 。 然 后 我 们 应 该 假定 将 连接 的 
左 参 数 作为 较 小 的 关系 存储 在 主 存 的 数据 结构 中 。 该 关系 称 为 构造 用 关系 。 每 次 一 块 读 人 连接 
的 右 参 数 ， 称 为 探查 用 关系 ,并 将 它 的 元 组 与 已 存储 的 关系 进行 匹配 。 以 参数 作为 区 分 的 其 他 连 
接 算法 包括 : 

L 艇 套 循 环 连 接 ， 在 这 种 连接 中 我 们 认为 左 参 数 是 外 部 循环 关系 。 

2. 索引 连接 ， 我 们 认为 这 种 连接 的 右 参 数 有 索引 。 


5.6.2 连接 树 

当 有 两 个 关系 的 连接 时 ， 我 们 需要 对 参数 排序 。 按 照 惯 例 ， 我 们 应 该 选择 估计 值 较 小 的 参 
数 作为 左 参 数 。 各 个 参数 的 大 小 具有 重要 的 并 且 可 辨别 的 差别 ， 这 是 非常 普遍 的 ， 因 为 一 个 
涉及 连接 的 查询 往往 会 涉及 至 少 一 个 属性 上 的 选择 ,并 且 这 个 选择 使 得 一 个 关系 的 估计 值 大 
大 减少 。 

例 5. 30 回忆 以 下 查询 

SELECT movieTitle 

FROM StarsIn, MovieStar 

WHERE starName = name AND 

birthdate LIKE ’%1960?; 

在 图 S-4 中 ， 我 们 将 关系 Starsin 与 关系 MovieStar 的 选择 进行 连接 ， 从 而 可 以 推导 出 图 5-24 
所 示 的 首选 逻辑 查询 计划 。 我 们 并 没有 给 出 关系 Starsin 和 MovieStar 的 大 小 估计 值 ， 但 是 我 们 可 
以 认为 选择 在 一 年 中 出 生 的 明星 中 将 会 得 到 MovieStar PAY 1/50 的 元 组 。 由 于 每 一 部 电影 通常 
有 几 个 明星 ， 我 们 假设 Starsin 在 开始 将 大 于 MovieStar， 这 样 ， 连 接 的 第 二 个 参数 ，o ,wow LIKE 
“% 1960”( MovieStar) ， 会 远 小 于 第 一 个 参数 StarsIn。 我 们 得 出 的 结论 与 图 5-24 中 所 示 的 参数 的 
顺序 应 该 是 相反 的 ， 这 样 ， 就 选择 MovieStar 为 左 参 数 。 口 

当 有 两 个 关系 时 ， 对 于 连接 树 只 有 两 种 选择 一 一 选 两 个 关系 中 的 一 个 作为 左 参 数 。 当 连接 
有 两 个 以 上 的 关系 时 ， 可 能 的 连接 树 的 数量 会 迅速 增长 。 比 如 ， 图 5-30 所 示 为 四 个 关系 R、5S、 
T, U 进行 连接 时 三 种 可 能 的 树 的 形状 。 由 于 有 着 参数 顺序 ， 并 且 对 于 个 事物 将 会 有 n! 种 方 
法 对 其 进行 排序 ， 当 考虑 树叶 的 各 种 可 能 的 标识 时 ， 每 棵 树 将 会 代表 41! =24 棵 不 同 的 树 。 


5.6.3 左 深 连接 树 
图 5-30a 是 称 之 为 左 深 树 的 一 个 例子 。 一 般 来 说 ,一 棵 二 叉 树 如 果 所 有 的 右 子女 都 是 树叶 的 
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话 ， 它 就 是 左 深 树 。 同 样 ， 如 图 5-30c 所 示 的 树 ， 所 有 左 子女 都 是 树叶 ， 这 样 的 树 称 为 右 深 树 。 
如 图 5-30b 所 示 的 树 既 不 是 左 深 树 也 不 是 右 深 树 ， 称 之 为 浓密 树 。 下 面 我 们 将 论述 只 考虑 以 左 深 
树 作 为 可 能 的 连接 顺序 具有 双重 优点 。 


>< bq4 
/ \ A N / N 
x vu bX < R 
/ N /\ /\ / N 
[><d T R 5 T U S >< 
/ N / N 


a) b) c} 
图 5-30 ”对 四 个 关系 进行 连接 的 方法 


1. 对 于 给 定 树叶 的 可 能 的 左 深 树 的 数目 是 很 大 的 ， 但 不 会 像 所 有 树 的 数目 那样 大 。 因 此 ， 
如 果 我 们 将 搜索 限制 在 左 深 树 时 ， 查 询 计 划 的 搜索 将 可 以 用 于 比较 大 的 查询 。 

2. 用 于 连接 的 左 深 树 可 以 和 通用 的 连接 算法 很 好 地 交互 ， 尤 其 是 嵌 套 循环 连接 和 一 趟 连接 。 
基于 左 深 树 和 这 些 算法 的 查询 计划 将 会 比 非 左 深 树 所 用 的 同样 的 算法 更 有 效 。 

实际 上 ,一 个 左 深 树 或 右 深 树 中 的 树叶 可 以 是 带 有 除 连接 之 外 的 运算 符 的 内 部 结 点 。 例 如 
图 5-24 所 示 ， 在 技术 上 就 是 一 棵 具有 一 个 连接 运算 的 左 深 树 。 将 一 个 选择 应 用 于 连接 的 右 操作 
对 象 的 事实 并 没有 将 树 排 除 在 左 深 树 类 之 外 。 

对 于 给 定数 目的 关系 的 多 路 连接 ， 左 深 树 的 数目 的 增长 不 会 像 所 有 树 的 数目 增长 那样 快 。 
对 于 nn 个 关系 ,我 们 只 有 一 种 左 深 树 的 形状 ， 可 以 以 n! 种 方法 来 分 配 关系 。 对 这 nn 个 关系 有 同 
样 数目 的 右 深 树 。 然 而 ，n 个 关系 的 树 形 状 Tn) 的 所 有 数目 由 以 下 的 递归 给 出 : 

T(1)=1 


TF T(i)T(n —1) 


对 于 第 二 个 等 式 的 解释 是 : 我 们 可 以 任 选 一 个 1 和 n -1 之 间 的 数 i， 作 为 根 的 左 子 树 中 的 树 
叶 数 目 ， 这 些 树 叶 可 以 按 具 有 i 个 树叶 的 7T(i) 种 排列 方法 中 的 任意 一 种 方法 进行 排列 。 同 样 ， 对 
右 子 树 中 的 n-i 个 树叶 ， 也 用 T(n -让 种 方法 中 的 任意 一 种 对 其 进行 排列 。 
7T(n) 的 头 几 个 值 为 : 











aT PBs 6 
Te) [Tp [2 fs [ia [ae 

我 们 将 T(r) FE ma4! ， 就 得 到 当 树叶 表示 各 个 关系 时 所 有 树 的 数目 。 因 此 ， 带 有 6 个 树叶 且 
各 树叶 均 被 标识 的 树 的 数目 为 42 x6!， 即 30 240， 其 中 有 61! (BN 720) 棵 是 左 深 树 ， 另 外 还 有 
720 棵 是 右 深 树 。 

现在 ， 让 我 们 考虑 以 上 曾经 提 到 的 左 深 连 接 树 的 第 二 个 优点 : 有 利于 形成 有 效 的 计划 。 我 们 
将 给 出 两 个 例子 : 

1. 如 果 用 的 是 一 越 连接， 并且 “构造 用 关系 ”在 左边 ， 则 任何 时 候 所 需 的 内 存 都 将 比 对 同样 
关系 用 右 深 树 或 浓密 树 的 情况 要 小 。 

2. 如 果 是 用 内 套 循环 连接 ， 外 层 循环 的 关系 在 左边 ， 则 我 们 避免 多 于 一 次 地 构建 任意 中 间 
关系 。 
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例 5. 31 考虑 如 图 5-30a 中 的 左 深 树 ， 假设 对 三 个 运算 中 的 每 一 个 进行 简单 的 一 趟 连接 。 
和 大 部 分 情况 一 样 ， 以 左 参 数 作为 构造 用 关系 ， 也 就 是 说 左 参 数 将 会 存储 在 主 存 中 ， 要 计算 
Rm S$， 我 们 需要 在 主 存 中 保留 尽 并 且 在 计算 RmS 的 过 程 中 ， 我 们 还 需要 在 主 存 中 保留 结果 。 
这 样 ， 我 们 需要 BCR) + B(RMmS) 的 主 存 缓冲 区 。 如 果 选 择 最 小 的 关系 作为 R， 并 且 有 一 个 选择 
运算 使 尺 变 得 更 小 ， 则 有 可 能 得 到 所 需 的 缓冲 区 容量 。 

算出 Rm5 后 ,我 们 需要 将 该 关系 与 了 进行 连接 。 然 而 ， 此 时 RR 所 使 用 的 缓冲 区 不 再 需要 ， 
可 以 用 它 来 存储 (Rm 5S)7 的 结果 。 同 样 ， 将 该 关系 与 UV 进行 连接 时 ,不 再 需要 保留 关系 RMS, 
其 缓冲 区 可 以 用 于 存储 连接 的 最 终结 果 。 一 般 说 来 ， 以 一 趟 连接 方法 计算 的 左 深 树 需 要 的 主 存 
空间 至 多 是 任何 时 候 两 个 临时 关系 所 需 的 空间 。 

现在 ， 让 我 们 考虑 如 图 5-30c 中 右 深 树 的 实现 。 我 们 首先 应 将 R 载 人 主 存 缓冲 区 ， 因 为 左 参 
SEE“ HEARR”. RA, WES TOU) 并 将 其 用 于 根 连接 的 探查 用 关系 。 要 计算 
Sca(TmU)， 我 们 需要 将 S 放 入 缓冲 区 ,然后 计算 出 TmU 作为 5 的 探查 用 关系 。 但 是 TmU 需 
要 我 们 先 将 了 读 和 缓冲 区 。 现 在 ， 内 存 中 同时 有 了 R SHAT 一般 的 ， 如 果 我 们 试图 计算 一 个 
有 个 树叶 的 右 深 连接 树 ， 我 们 必须 将 n -1 个 关系 同时 读 人 内 存 。 


缓冲 区 管理 器 的 作用 
读者 也 许 注意 到 我 们 在 一 系列 例子 中 介绍 的 方法 有 一 个 不 同 点 ， 例 如 在 例 4.4 和 例 4.6 
中 ， 我 们 假设 一 个 连接 可 以 获得 的 主 存 缓冲 区 的 个 数 有 固定 的 限制 ， 如 果 为 了 计算 更 加 灵 
活 ， 则 我 们 假设 可 以 获得 足够 多 的 缓冲 区 满足 我 们 的 需要 ， 但 我 们 尽量 不 要 用 “ 太 多 ”缓冲 
区 。 回 忆 4.7 节 我 们 知道 缓冲 区 管理 器 可 以 非常 灵活 地 为 运算 分 配 缓冲 区 。 然 而 ， 如 果 一 次 
分 配 太 多 的 缓冲 区 ， 就 会 使 所 用 算法 的 性 能 降低 。 


当然 ， 整 个 B(R) +(S) + B(7) 的 大 小 可 能 会 小 于 我 们 在 对 左 深 树 进行 计算 的 任意 两 个 中 间 
阶段 中 所 需 的 空间 的 数目 ， 这 两 个 数目 分 别 为 B(R) + BC ROIS) Al BC ROIS) + B((ROIS)PAT) , 
尽管 如 此 ， 正 如 我 们 在 例 5. 30 中 指出 的 ， 涉 及 几 个 连接 的 查询 常常 会 有 一 个 小 的 关系 ， 我 们 可 
以 在 一 个 左 深 树 中 ， 首 先 以 该 关系 作为 最 左边 的 参数 。 如 果 民 很 小 ， RTT RS 远 小 于 
5S， 以 及 (R45)m4T 小 于 TT， 从 而 更 加 证 实 了 左 深 树 的 作用 。 口 

例 5.32 现在， 假设 我 们 将 要 通过 和 骨 套 循环 连接 来 实现 图 5-30 中 的 四 路 连接 ， 并且 对 于 所 
包括 的 三 个 连接 中 的 每 一 个 有 一 个 迭代 器 (正如 在 4.1.6 节 中 那样 ) 。 另 外 ， 为 简便 起 见 ， 假 设 
RR, S, TAU 都 是 已 存储 的 关系 而 不 是 表达 式 。 如 果 我 们 采用 如 图 5-30a 中 的 左 深 树 ， 则 在 
树 根 的 迄 代 器 会 为 左 参数 (Rm5)m7 获得 主 存 大 小 的 块 。 只 要 0 是 已 存储 的 关系 ， 它 会 将 该 块 
和 全 部 0 进行 连接 ， 它 只 需要 对 U0 进行 扫描 ， 而 不 必 构 建 它 。 一 旦 获得 左 参 数 的 下 一 块 ， 就 将 
其 放 人 内 存 ， 则 将 再 次 对 U 进行 读 操 作 ， 但 是 如 果 两 边 的 参数 都 是 很 大 的 ， 符 套 循环 连接 就 不 
可 避免 地 需要 进行 这 样 的 重复 。 

FRR, FIT ARAB (ROIS) PIT HR, RITH ROWS 的 块 放 和 人 内 存 并 对 了 进行 扫描 。 对 了 进 
行 几 次 扫描 最 终 也 许 是 必要 的 ， 而 且 也 不 可 能 避免 。 最 后 ， 要 获得 ROIS 的 块 需要 读 人 R 的 块 并 
HES $ 进行 比较 ， 也 许 要 进行 几 次 。 尽 管 如 此 ， 在 所 有 这 些 过 程 中 ， 只 有 已 存储 的 关系 要 读 人 
几 次 ， 当 主 存 不 足以 保留 整个 关系 时 ， 这 种 反复 读 和 人 会 使 能 套 循 环 连接 的 工作 方式 出 现 人 为 的 
痕迹 。 o 

现在 ， 将 左 深 树 的 循环 行为 与 如 图 5-30c 中 的 右 深 树 的 循环 行为 进行 比较 。 树 根 的 循环 以 读 
入 民 的 块 作为 开始 。 然 后 它 必须 构建 整个 关系 SA TAU) 并 将 其 与 尺 进 行 比较 。 当 我 们 将 下 一 
个 RR 的 块 读 入 内 存 时 ， 必 须 再 次 构建 Sm( TmU)。 其 后 每 一 个 RR 的 块 同样 需要 构建 这 同一 关系 。 
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当然 ， 我 们 可 以 一 次 构建 5m(TmU)， 并 将 其 存储 在 内 存 或 磁盘 。 如 果 将 其 存储 在 磁盘 ， 
与 左 深 树 计 划 相 比 我 们 就 要 使 用 额外 的 磁盘 IO， 如 果 存 储 在 内 存 ， 则 我 们 就 会 遇 到 曾 在 例 5. 31 
中 讨论 的 关于 过 度 使 用 内 存 的 问题 。 口 


5.6.4 通过 动态 规划 来 选择 连接 顺序 和 分 组 

要 为 多 个 关系 选择 连接 顺序 ， 我 们 有 以 下 三 个 选择 : 

1. 考虑 全 部 。 

2. 考虑 一 个 子 集 。 

3. 采用 启发 式 方法 选取 一 个 。 

在 这 里 我 们 将 考虑 一 个 明智 的 称 之 为 动态 规划 的 方法 来 进行 枚 举 。 它 可 以 用 于 或 者 考虑 所 
有 顺序 ， 或 者 只 考虑 特定 子 集 ， 例 如 限制 于 左 深 树 的 顺序 。 在 5. 6. 6 节 我 们 为 选择 一 个 单一 的 顺 
序 考 虑 一 个 启发 式 方法 。 动 态 规划 是 一 种 通用 的 算法 范 型 。 动 态 规划 的 思想 是 : 我 们 填写 一 个 
代价 表 ， 只 记 住 我 们 推出 结论 所 需 的 最 少 的 信息 。 

假设 我 们 想 对 R, OTR, OR, 进行 连接 。 在 动态 规划 算法 中 ， 我 们 为 包含 4 个 关系 中 的 一 个 或 
多 个 关系 的 每 一 个 子 集 构建 带 有 一 个 表 项 的 表 。 在 这 个 表 中 我 们 将 记录 : 

1. 这 些 关系 的 连接 的 大 小 估计 值 。 我 们 可 以 利用 5.4.6 节 中 介绍 的 公式 。 

2. 计算 这 些 关系 的 连接 的 最 小 代价 。 在 我 们 的 例子 中 我 们 将 使 用 中 间 关 系 大 小 的 和 (不 包括 
R: 本身 或 与 该 表 项 相关 的 所 有 关系 集合 的 连接 ) 。 

3. 得 到 最 小 代价 的 表达 式 。 这 个 表达 式 对 有 待 求解 的 关系 集合 进行 分 组 连接 。 我 们 可 以 选 
择 性 地 只 考虑 左 深 表达 式 ， 在 这 种 情况 下 表达 式 仅 仅 是 关系 的 顺序 。 

这 个 表 的 构建 是 一 个 关于 子 集 大 小 的 归纳 。 有 两 个 变量 ,依赖 于 我 们 是 否 希 望 考 虑 所 有 可 
能 的 树 的 形状 或 只 考虑 左 深 树 。 当 我 们 在 下 面 讨论 表 构建 的 归纳 步骤 时 我 们 会 对 这 个 不 同 进行 
解释 。 

基础 一 个 单一 关系 中 的 表 项 包括 RR 的 大 小 ， 其 值 为 0 的 代价 ， 以 及 尺 本 身 的 表达 式 。 一 
对 关系 1R,，RR} 的 表 项 也 容易 计算 。 代 价 为 0， 是 因为 没有 涉及 中 间 关 系 ， 并 且 大 小 估计 值 由 
5.4.6 节 中 介绍 的 规则 给 出 ; CR, 5 R 的 乘积 再 除 以 R, 与 Ri 的 每 一 个 共同 属性 的 较 大 的 值 集 
的 大 小 ， 如 果 有 公共 属性 的 话 。 表 达 式 要 么 是 R, MR, WAE RAR. RRES 6.1 节 中 介绍 
过 的 思想 ， 我 们 挑选 R 5 R 中 较 小 的 一 个 作为 左 参 数 。 

归纳 ”现在 ,我 们 可 以 建立 表 ， 并 为 大 小 是 3、4 等 的 所 有 子 集 计算 表 项 ， 直 到 我 们 得 到 大 
小 为 n 的 子 集 的 表 项 。 此 表 项 告诉 我 们 对 所 有 关系 的 连接 进行 计算 的 最 佳 方法 ; 它 还 告诉 我 们 这 
个 方法 的 估计 代价 ， 该 值 在 计算 以 后 的 表 项 时 需要 用 到 。 我 们 需要 看 看 如 何 计算 有 上 个 关系 的 集 
合 及 的 表 项 。 

如 果 我 们 希望 只 考虑 左 深 树 ， 那么 对 及 中 的 个 关系 RR 中 的 每 一 个 ,我们 考虑 首先 计算 
R-{R) 的 连接 并 将 它 与 尺 再 进行 连接 的 可 能 性 。 对 尺 进 行 连 接 计算 的 代价 等 于 及 - {RI 的 代价 
MER- {R 的 结果 大 小 。 我 们 选取 能 生成 最 小 代价 的 尺 。 对 尺 的 表达 式 以 丸 - [R] 的 最 佳 连接 表 
达 式 作为 最 终 的 连接 的 左 参 数 ， 以 R 作 为 右 参数 。R 的 大 小 由 5.4. 6 节 中 的 公式 给 出 。 

如 果 我 们 希望 考虑 所 有 的 树 ， 则 关系 集合 及 的 表 项 的 计算 会 更 加 复杂 。 我 们 需要 考虑 所 有 的 
将 尺 分 解 成 不 相交 的 集合 及 和 Ra 方法 。 对 每 一 个 这 样 的 子 集 ， 我 们 考虑 以 下 两 项 的 和 : 

1. Ri AIR, 的 最 佳 代价 。 

2. Ri 和 Ra 的 结果 大 小 。 





日 ”动态 规划 的 一 般 处 理 请 参阅 . Aho, Hopcroft and Ullman, (Data Structures and Algorithms) , Addison-Wesley, 1983. 
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对 给 出 最 佳 代价 的 划分 ， 我 们 利用 这 个 和 值 作为 丸 的 代价 ， 并 且 及 的 表达 式 是 尺 和 Ro 的 最 
佳 连接 顺序 的 连接 。 

例 5.33 考虑 四 个 关系 S、T 和 0U 的 连接 。 为 了 简单 起 见 ， 我 们 假设 每 个 关系 有 1000 个 
元 组 。 它 们 的 属性 以 及 每 个 关系 中 的 这 些 属性 的 值 集 的 估计 大 小 如 图 5-31 所 示 。 








V(R, a) = 100 VW, a) = 50 
V(R,b) = 200 V(S,b) = 100 


V(S,c) =500 V(T,c) = 20 
V(T,d)=50 V(U,d) = 1000 








图 5-31 {5.33 的 参数 


对 于 单个 的 集合 ， 它 们 的 大 小 、 代 价 以 及 最 佳 计 划 如 图 5-32 所 示 。 即 对 每 一 个 单独 的 关系 ， 
给 定 它们 每 个 的 大 小 为 000， 代 价 为 0， 这 是 因为 它们 不 
需要 中 间 关 系 ， 并 且 最 佳 (唯一 的 ) 表 达 式 就 是 关系 本 身 。 

现在 ， 考 虑 关系 对 。 由 于 两 个 关系 的 连接 中 仍然 没有 
中 间 关 系 ， 所 以 每 对 关系 的 代价 为 0。 两 个 关系 中 的 任意 
一 个 都 可 以 作为 左 参数 ， 因 此 有 两 种 可 能 的 计划 ， 但 由 于 图 5-32 单个 集合 的 表 
恰好 每 个 关系 的 大 小 都 相等 ， 我 们 没有 根据 来 选择 哪 一 个 计划 。 于 是 对 于 每 一 个 关系 对 ， 我 们 都 
按照 字母 的 顺序 选择 在 前 面 的 作为 左 参数 。 结 果 关 系 的 大 小 由 一 般 的 公式 算出 。 结 果 如 图 5-33 
所 示 。 














{R 5} {R,T} | {8,0} | {5,7} {5,U} | {7,0} 
天 不 5000 | 1,000,000 | 10,000 | 2000 | 1,000,000 | 1000 
代价 0 0 0 | 0 0 0 
最 优 计划 | Roas Rost | ReU | SmT SoU | Tot 


图 5-33 关系 对 的 表 


现在 ， 考 虑 四 个 关系 中 的 三 个 关系 的 连接 的 表 。 计 算 三 个 关系 的 连接 的 唯一 方法 是 首先 选 
择 两 个 进行 连接 。 结 果 的 估计 大 小 由 标准 公式 计算 出 ， 在 此 我 们 省 略 计算 的 细节 ; 记 住 不 管 我 们 
用 什么 方法 计算 连接 ， 我 们 都 会 得 到 同样 的 大 小 。 

关系 的 每 个 元 组 的 代价 估计 等 于 中 间 关 系 的 大 小 一 一 这 个 中 间 关 系 是 最 先 选取 的 两 个 关系 
的 连接 。 由 于 我 们 希望 这 个 代价 尽 可 能 小 ， 我 们 考虑 三 个 关系 中 的 每 一 对 并 且 取 最 小 的 一 对 。 

对 于 公式 ， 我 们 首先 将 被 选中 的 两 个 关系 组 成 一 组 ， 但 是 它们 可 以 是 左 参 数 或 者 右 参 数 。 让 
我 们 假设 我 们 只 对 左 深 树 感 兴趣 ， 于 是 我 们 总 是 用 头 两 个 关系 的 连接 作为 左 参 数 。 由 于 在 所 有 
的 情况 下 四 个 关系 中 的 两 个 的 连接 的 估计 大 小 至 少 为 1000( 相 当 于 每 单个 关系 的 大 小 ) MRR 
们 允许 非 左 深 树 的 话 ， 我 们 常常 会 选择 一 个 关系 作为 这 个 例 中 的 左 参数 。 三 个 关系 为 一 组 的 概 
要 表 如 图 5-34 所 示 。 

| | {RST}| _ {R5,10} R,T,U} | {5,7,0} | 
天 水 10,000 50,000 10,000 2,000 


代价 2,000 5,000 1,000 1,000 
最 优 计划 | (Sra T) aR | (Roe S}oa U | (Tra) oR | (T aU) pa S 


图 5-34 三 个 关系 为 一 组 表 
让 我 们 考虑 {1{R，S，7|] 作为 计算 的 例 。 我 们 必须 依次 考虑 三 对 中 的 每 一 个 。 如 果 我 们 以 


Rm S 开 始 ， 则 代价 就 是 这 个 关系 的 大 小 为 5000( 参 见 图 5-33). LA ROUT 开始 使 得 中 间 关 系 的 代 
价 为 1 000 000， 以 Spa7 开始 则 代价 为 2000。 由 于 后 者 是 三 个 选择 中 最 小 的 ， 我 们 选择 了 这 个 计 
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划 。 该 选择 不 仅 反映 在 {RR，S，T} 列 的 代价 表 项 中 ， 而 且 也 反映 在 最 佳 计 划 行 ， 在 这 一 行 中 ， 将 
S 和 了 组 成 一 组 的 计划 首先 出 现 。 

RE, 我们 必须 考虑 全 部 四 个 关系 连接 的 情况 。 有 两 种 通用 的 方法 我 们 可 以 计算 全 部 四 个 
关系 的 连接 : 

1. 以 可 能 的 最 佳 方法 选择 三 个 进行 连接 ， 然 后 与 第 四 个 连接 。 

2. 将 四 个 关系 划分 为 两 对 ， 将 每 一 对 进行 连接 ， 再 将 两 个 结果 进行 连接 。 

当然 ， 如 果 我 们 只 考虑 左 深 树 则 第 二 种 计划 被 排除 ， 因 为 它 会 生成 浓密 树 。 图 5-35 的 表 在 
图 5-33 和 图 5-34 中 的 较 好 的 分 组 方法 的 基础 上 总 结 了 7 种 可 能 的 分 组 连接 的 方法 。 














例如 考虑 图 5-35 中 的 第 一 个 表达 式 。 它 表示 首先 将 分 组 代价 | 
R、S 和 了 进行 连接 ,再 将 所 得 结果 与 进行 连接 。 从 | (SRD eR) =U) 12000 
图 5-34 我 们 知道 将 RR、5S 和 了 进行 连接 的 最 佳 方法 是 先 Fest) nam} mS 11 000 
将 $ 和 了 进行 连接 。 我 们 使 用 了 这 个 表达 式 的 左 深 形 0 
式 ， 并 在 右边 连接 U 以 继续 使 用 左 深 形式 。 如 果 我 们 只 | (RoT) oa (Soa) | 2000000 
考虑 左 深 树 ， 则 这 个 表达 式 以 及 关系 顺序 就 是 唯一 的 选 ” | CADR) | 12000 





择 。 如 果 我 们 允许 浓密 树 ， 则 我 们 要 在 左边 连接 U, A 
为 它 将 小 于 其 他 三 个 关心 的 连接 。 该 连接 的 代价 为 
12 000， 等 于 代价 值 加 上 (Sm 了 7 了 mR 的 大 小 ， 它 们 分 别 为 2000 和 10 000, 

图 5-35 中 的 最 后 三 个 表达 式 表示 如 果 我 们 包含 浓密 树 时 的 额外 选择 。 这 些 表 达 式 首先 是 由 
两 对 关系 的 连接 组 成 。 例 如 ， 最 后 一 行 表 示 首 先 对 以 U 和 Sm 了 进行 连接 ,然后 再 将 两 个 结果 
进行 连接 。 该 表达 式 的 代价 等 于 两 对 关系 的 大 小 与 代价 之 和 。 任 意 一 对 的 代价 都 为 0， 这 是 必然 
的 ， 它 们 的 大 小 分 别 为 10 000 和 2000。 由 于 我 们 通常 选择 较 小 的 关系 作为 左 参数 ， 故 我 们 的 表 
ERA (SPAT) Pa R EAU) , 

在 这 个 例子 中 ,我 们 看 到 所 有 代价 中 的 最 小 值 与 第 四 个 表达 式 ( (Tm U)m 5)mR 相关 。 我 
们 选择 该 表达 式 来 计算 连接 ; 它 的 代价 为 3000。 不 管 我 们 的 动态 规划 策略 是 否 考虑 所 有 的 计划 
或 者 仅 考虑 左 深 计划 ， 由 于 它 是 左 深 树 ， 它 就 是 被 选择 的 逻辑 查询 计划 。 口 


5.6.5 带 有 更 具体 的 代价 函数 的 动态 规划 

利用 关系 的 大 小 作为 代价 的 估计 可 以 简化 动态 规划 算法 的 计算 。 然 而 ， 这 个 简化 将 会 带 来 
一 个 缺点 ， 这 就 是 它 在 计算 中 没有 考虑 连接 的 实际 代价 。 举 一 个 极端 的 例子 ， 如 果 有 一 个 可 能 的 
连接 R(a,b)m 5S(b，c) 涉 及 只 有 一 个 元 组 的 关系 尺 和 另 一 个 在 连接 属性 5 上 有 索引 的 关系 $， 
则 该 连接 几乎 不 花费 任何 时 间 。 与 此 相反 ， 如 果 $ 上 没有 索引 ， 则 我 们 必须 对 它 进行 扫描 ， 即 使 
及 是 一 个 单元 组 的 关系 ， 这 也 会 花费 B(S) 次 磁盘 O0, REER, SAR RAS 的 大 小 的 代价 度 
量 不 可 能 区 分 这 两 种 情况 ， 所 以 在 分 组 中 利用 Rm 5 的 代价 要 人 么 会 估计 过 高 ， 要 么 会 被 估计 
不 足 。 

然而 ， 对 动态 规划 算法 进行 修改 以 便 将 连接 算法 考虑 进去 是 不 难 的 。 首 先 ， 用 磁盘 0 作为 
BRR AMR EE. HER AR 的 代价 时 ， 我 们 将 RR 的 代价 、Rs 的 代价 ， 以 及 利用 可 获 
得 的 最 佳 算法 对 这 两 个 关系 进行 连接 所 需 的 最 小 代价 相 加 。 由 于 后 一 个 代价 一 般 依 赖 于 尽 ， 和 R。 
的 大 小 ， 我 们 还 必须 计算 这 些 大 小 的 估 值 ， 正 如 我 们 在 例 5. 33 中 所 做 的 那样 。 

动态 规划 的 一 个 功能 更 强大 的 版 本 是 基于 在 5.5.4 节 中 所 提 到 的 Selinger 风格 优化 。 现 在 ， 
对 每 一 个 可 能 被 连接 的 关系 集合 ， 我 们 保持 的 不 是 只 有 一 个 代价 ， 而 是 几 个 代价 。Selinger 风格 
优化 不 仅 考虑 算出 连接 结果 的 最 小 代价 ， 还 考虑 生成 以 几 个 “ 感 兴趣 "的 顺序 中 的 任意 一 个 顺序 
存储 的 关系 的 最 小 代价 。 这 些 感 兴趣 的 顺序 包括 任何 对 以 后 的 排序 连接 有 利 或 者 能 够 生成 以 用 


图 5-35 分 组 连接 以 及 它们 的 代价 
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户 所 期 望 的 顺序 排列 的 全 部 查询 的 输出 的 顺序 。 当 必须 生成 排序 的 关系 时 ， 必 须 考 虑 选择 排序 
连接 ， 或 者 是 一 趟 的 或 者 是 多 趟 的 ， 而 当 不 考虑 将 一 个 结果 进行 排序 的 价值 时 ， 散 列表 连接 至 少 
常常 与 相应 的 排序 连接 一 样 好 。 


5.6.6 选择 连接 顺序 的 仿 林 算法 

如 例 5. 33 所 建议 的 ， 即 使 是 动态 规划 的 仔细 限定 范围 的 搜索 也 会 导致 计算 量 与 被 连接 的 关 
系数 成 指数 关系 。 采 用 像 动态 规划 或 者 分 支 限 制 范围 的 搜索 这 样 的 方法 来 寻找 五 个 或 六 个 关系 
的 最 佳 连接 顺序 ， 是 合理 的 。 然 而 ， 当 连接 数 超过 范围 ， 或 者 如 果 我 们 选择 不 想 把 时 间 花 费 在 穷 
尽 的 搜索 上 ， 则 我 们 可 以 在 查询 优化 中 采用 启发 式 连接 顺序 。 

启发 式 的 最 普遍 的 选择 是 贪 焚 算法 ， 在 这 个 算法 中 ， 我 们 一 次 为 连接 的 顺序 做 一 个 决定 ， 并 
且 从 不 返回 ,或 者 说 一 旦 做 出 决定 便 不 再 重新 考虑 。 我 们 将 考虑 只 选择 左 深 树 的 贪 殊 算 法 。“ 贪 
禁 ” 是 基于 这 样 的 思想 一 一 我 们 希望 在 树 的 每 一 级 保持 尽 可 能 少 的 中 间 关 系 。 

基础 ”以 估计 连接 大 小 是 最 小 的 关系 对 开始 。 这 些 关 系 的 连接 成 为 当前 树 。 

介绍 ”在 所 有 还 没有 包含 在 当前 树 中 的 关系 中 ， 寻 找 与 当前 树 进行 连接 能 生成 估计 大 小 最 
小 的 关系 。 以 旧 的 当前 树 作 为 左 参 数 ， 被 选中 的 关系 作为 右 参 数 来 形成 新 的 当前 树 。 

连接 的 选择 性 

一 个 查看 诸如 为 选择 一 个 左 深 连 接 树 的 贪 禁 算法 的 启发 式 的 有 效 方式 是 ， 每 个 关系 民 与 
当前 树 进行 连接 时 有 一 个 选择 性 ， 它 是 连接 结果 的 大 小 和 当前 树 大 小 的 比例 。 由 于 我 们 经 党 
不 能 获得 任意 关系 的 确切 大 小 ,我 们 就 像 以 前 所 做 的 来 估计 这 些 大 小 值 。 一 个 连接 顺序 的 贫 
禁 算 法 将 选取 有 着 最 小 选择 性 的 那个 关系 。 

例如 ， 如 果 一 个 连接 属性 是 尺 的 一 个 关键 字 ， 则 选择 性 几乎 为 1， 这 常常 是 有 利 的 情况 。 
注意 ， 从 图 5-31 的 统计 可 以 判断 ， 属 性 d 是 UU 的 一 个 关键 字 ， 并 且 其 他 关系 没有 关键 字 ， 这 
表明 了 为 什么 将 了 和 UU 进行 连接 是 启动 连接 的 最 好 方式 。 


例 5.34 将 贪 禁 算法 应 用 于 例 5. 33 中 的 关系 。 基 本 的 步骤 是 找 出 连接 结果 最 小 的 一 对 关 
系 。 考 虑 图 5-33， 可 以 看 出 是 连接 TMU， 其 代价 为 1000。 因 此 ，7TmU 是 “当前 树 ”。 

我 们 现在 考虑 下 一 步 是 否 将 R 和 5 连接 进入 树 。 我 们 比较 (TMU)m%R A(T AU) OAS 的 大 
小 。 图 5-34 告诉 我 们 后 者 的 大 小 为 2000， 好 于 前 者 ， 其 代价 为 10 000。 因 此 ， 我 们 将 (Tea U)m 5 
作为 当前 树 。 

现在 没有 选择 了 ; 我 们 必须 在 最 后 一 步 连 接 尺 ， 这 将 使 得 总 的 代价 为 3000 ， 相 当 于 两 个 中 间 
关系 大 小 的 和 。 注 意 ， 由 仿 焚 算法 得 到 的 树 和 在 例 5. 33 中 用 动态 规划 算法 所 得 到 的 树 是 相同 的 。 
然而 ， 也 有 贪 殖 算法 寻找 最 佳 结果 失败 的 例子 ， 而 动态 规划 算法 能 保证 找到 最 佳 结果 ; 参看 习 
5.6.4, 


5.6.7 习题 

习题 5. 6. 1 对 习题 5.4, 1 中 的 关系 ， 给 定 评价 以 下 所 有 可 能 的 连接 顺序 的 动态 规划 表 表 项 : 
a) 只 有 左 深 树 。 

b) 所 有 树 。 

在 每 一 种 情况 下 什么 是 最 佳 选择 ? 

习题 5. 6.2 除了 以 下 的 修改 ， 其 他 与 习题 5. 6. 1 相同 : 

i Z 的 计划 改 为 Z(d，c) 。 

ii. V(Z, a) =50。 

习题 5. 6. 3 ”用 习题 5. 4. 2 中 的 关系 重复 习题 5. 6. 1 。 
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习题 5. 6. 4 考虑 关系 R(a, b), S(b, c), Me, d AR Ula, d) WHR, HP RAMU BA 1000 个 元 组 ， 
而 $ 和 ?有 200 个 元 组 。 另 外 ， 对 于 属性 c， 有 T(S，c) =V(T, c) =20， 除 此 之 外 ， 所 有 关系 的 所 有 属性 
都 有 200 ME. 
a) 用 贪 梦 算 法 选择 什么 样 的 顺序 ? 其 代价 是 多 少 ? 
b) 什 么 是 最 佳 连接 顺序 以 及 其 代价 是 多 少 ? 
1 习题 5. 6. 5 ”假设 我 们 希望 按 图 5-30 中 的 树 结构 之 一 对 关系 尺 、3S、7 和 U0 进行 连接 ， 并 且 我 们 希望 在 内 存 
中 保存 所 有 的 中 间 关 系 ， 直 到 不 再 需要 它们 为 止 。 在 我 们 的 一 般 假 设 情 况 下 ， 所 有 4 个 关系 的 连接 的 结果 
将 会 被 产生 结果 的 其 他 过 程 冲 掉 ， 因 此 那个 关系 不 需要 内 存 。 从 被 存储 关系 以 及 中 间 关 系 ( 例 如 B(R) 或 
者 BCRDAS) ) 所 需 块 数 的 角度 说 ， 图 5-30 中 每 个 树 所 需 内 存 的 块 数 好 的 下 限 是 多 少 ? 什么 假设 使 我 们 得 
出 这 样 的 结论 : 一 棵 树 一 定 比 另 一 棵 树 使 用 较 少 的 内 存 ? 
! 习题 5. 6. 6 ”如 果 我 们 利用 动态 规划 来 对 大 个 关系 的 选择 连接 顺序 ， 我 们 必须 填充 表 中 的 多 少 个 表 项 ? 
习题 5. 6. 7 对 以 下 连接 有 和 多少 棵 树 ? a)8 个 关系 ; b)9 个 关系 。 既 不 是 左 深 树 也 不 是 右 深 树 的 有 多 少 ? 


5.7 物理 查询 计划 选择 的 完成 


我 们 已 经 分 析 了 查询 ,将 它 转化 为 初始 的 逻辑 查询 计划 ， 并 采用 5.3 节 中 所 描述 的 转换 来 提 
高 逻辑 查询 计划 的 性 能 。 选 择 物理 查询 计划 的 过 程 中 一 部 分 是 我 们 在 5.5 节 中 所 讨论 到 的 所 有 选 
项 的 枚 举 和 代价 估计 。5. 6 节 着 眼 于 枚 举 问题 、 代 价 估计 ， 以 及 为 几 个 关系 的 连接 排序 。 经 扩 
E, 我们 可 以 利用 同样 的 技术 为 多 个 并 、 交 或 它们 的 任意 结合 /交换 运算 进行 排序 。 

要 将 逻辑 计划 变 成 一 个 完整 的 物理 查询 计划 仍 需要 几 个 步骤 。 我 们 还 必须 包括 的 几 个 原则 
性 论点 为 : 

1. 在 一 些 早期 步骤 例如 通过 动态 规划 选择 连接 顺序 中 还 没有 进行 算法 选择 的 情况 下 ， 对 执 
行 查询 计划 的 算法 的 选择 。 

2. 关于 何 时 中 间 结 果 将 会 被 物化 (被 整个 创建 并 被 存储 在 磁盘 上 ) ， 何 时 它们 将 会 被 流水 操 
作 ( 只 在 主 存 中 被 创建 ， 并 且 任 何 时 候 都 不 需要 被 完整 地 保存 ) 的 决定 。 

3. 物理 查询 计划 运算 符 的 注释 ， 它 必须 包括 有 关 被 存储 关系 的 访问 方法 的 细节 以 及 相关 代 
数 运算 的 执行 算法 的 细节 。 

我 们 不 会 讨论 全 部 运算 符 的 选择 算法 。 我 们 只 选择 性 地 讨论 最 重要 的 两 个 运算 符 : 在 5.7.1 
节 中 讨论 选择 以 及 在 5.7.2 节 中 讨论 连接 。 然 后 ， 我 们 在 5.7.3 节 一 直到 5.7.5 节 中 将 考虑 流水 
操作 和 物化 的 选择 。5.7. 6 节 将 给 出 物理 查询 计划 的 注释 。 


5.7.1 选取 一 个 选择 方法 

选取 一 个 物理 查询 计划 最 重要 的 步骤 之 一 是 为 每 个 选择 运算 符 精 选 算法 。 在 4. 2. 1 节 中 我 们 
提 到 oe(R) 操 作 的 执行 ， 在 这 个 操作 中 我 们 访问 完整 的 关系 六 并 且 看 哪 一 个 元 组 满足 条 件 C。 然 
后 在 4.6.2 节 中 我 们 考虑 了 C 是 “属性 等 于 常数 ”的 形式 ， 并 且 对 那个 属性 我 们 有 一 个 索引 的 概 
率 。 如 果 是 这 样 的 话 ， 我 们 可 以 找 出 满足 条 件 C 的 元 组 ， 而 不 必 查 看 R 的 全 部 。 现 在 ， 让 我 们 
考虑 这 个 问题 的 广义 性 ， 即 我 们 有 一 个 选择 条 件 ， 它 是 几 个 条 件 的 AND。 假 定 至 少 有 一 个 条 件 
是 te 的 形式 ， 其 中 4 是 一 个 有 索引 的 属性 ，e 是 一 个 常数 ， 并 且 是 一 个 比较 运算 符 = 或 <。 

每 个 物理 计划 使 用 一 些 属性 ， 这 些 属性 : 

a) 有 一 个 索引 。 

b) 与 选择 项 之 一 的 一 个 常量 相 比 较 。 

然后 我 们 利用 这 些 索 引 来 识别 满足 每 一 个 条 件 的 元 组 集 。3. 1.7 节 和 3.4.3 节 讨 论 了 在 将 
元 组 从 磁盘 读 出 之 前 ， 我 们 如 何 可 以 利用 通过 这 些 索 引 所 得 到 的 指针 来 找 出 满足 所 有 条 件 的 
元 组 。 
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为 简便 起 见 ， 我 们 将 不 以 这 种 方式 来 考虑 利用 几 个 索引 。 我 们 将 讨论 限制 在 以 下 的 算法 : 

1. 采用 在 4. 5. 1 节 中 所 讨论 的 索引 扫描 物理 操作 ， 对 所 有 满足 (1) 中 的 比较 的 元 组 进行 检索 。 

2. 考虑 在 (1) 中 所 选中 的 每 个 元 组 ， 看 它 是 否 满足 剩 下 的 选择 条 件 。 执 行 这 一 步 的 物理 操作 
叫做 过 滤器 。 

除了 这 种 形式 的 物理 计划 ， 我 们 还 必须 考虑 没有 利用 任何 索引 ， 但 它 读 取 全 部 关系 (采用 表 
扫描 物理 操作 ) 并且 将 每 个 元 组 传递 给 过 滤器 操作 来 检查 选择 条 件 是 否 满 足 的 计划 。 

我 们 通过 估计 读 取 每 一 个 可 能 的 选项 的 数据 的 代价 ， 从 诸多 可 能 的 物理 计划 中 决定 用 哪 一 
个 来 执行 给 定 的 选择 。 为 了 比较 不 同 算法 的 代价 ， 我 们 不 能 继续 使 用 经 过 简化 的 中 间 关 系 大 小 
的 代价 估计 。 原 因 是 我 们 现在 正 考虑 逻辑 查询 计划 的 一 个 单一 步骤 的 执行 ， 并 且 中 间 关 系 与 具 
体 执行 是 相互 独立 的 。 

因此 ， 我 们 将 再 次 计算 磁盘 VO, MRNA 4 章 中 讨论 算法 和 它们 的 代价 一 样 。 如 前 ， 为 
简便 起 见 ， 我 们 将 只 计算 访问 数据 块 的 代价 ， 而 不 考虑 索引 块 。 所 需 的 索引 块 的 数目 一 般 远 小 于 
所 需 的 数据 块 的 数目 ， 因 此 磁盘 VO 代价 的 这 个 近似 经 常 足够 准确 。 

以 下 是 对 于 不 同 的 计划 所 估计 的 代价 大 小 的 概要 。 我 们 假设 操作 是 re(R) ， 其 中 条 件 C 是 
一 个 或 多 个 项 的 AND。 

1. 表 扫 描 算法 与 一 个 过 滤器 步骤 相 结合 的 代价 是 : 

a) MFR R RHR, MA BCR). 

b) WR RBA BR, WMA T(R). 

2. 选 出 一 个 等 值 选项 ， 例 如 a = 10， 存 在 关于 属性 a 的 索引 ， 并 且 利 用 索引 扫描 来 找 出 匹配 
元 组 ， 然 后 将 被 浏览 的 元 组 进行 过 滤 来 看 它们 是 否 满 足 全 部 条 件 C， 这 样 的 一 个 算法 的 代价 是 ; 

a) W RRI FERN, 为 BCR)/V(R, a). 

b) 如 果 索 引 不 是 聚集 的 ， 则 为 T(R)/V(R，a)。 

3. 选 出 一 个 不 等 值 选 项 ,例如 b<20， 存 在 关于 属性 5 的 索引 ， 并 且 利 用 索引 -扫描 来 搜索 匹 
配 元 组 ， 然 后 将 被 浏览 的 元 组 进行 过 滤 来 看 它们 是 否 满足 全 部 条 件 C， 这 样 的 一 个 计划 的 代价 是 : 

a) 如 果 索 引 是 聚集 的 ， 则 为 BCR) /3.° 

b) 如 果 索 引 不 是 诊 集 的 ， 则 为 T(R)/3。 

例 5.35 考虑 选择 og, swwy-2awo:<s (R), 其 中 R(x,，y,z) 有 以 下 的 参数 : TCR) =5000, 
B(R) =200, V(R, x) =100, URV(R, y) =500。 另 外 ,假设 RR 是 聚集 的 ,并且 所 有 x、y 以 及 
z 都 有 索引 ， 只 有 z 的 索引 是 聚集 的 。 以 下 是 执行 这 个 选择 的 选项 : 

1. 表 扫 描 后 进行 过 滤 。 其 代价 为 B(R) ， 或 者 是 200 次 磁盘 LO， 因 为 RR 是 聚集 的 。 

2. 使 用 x 的 索引 以 及 索引 扫描 来 找 出 x=1 的 元 组 ,然后 利用 过 滤 操 作 来 检测 y=2 以 及 z <5。 
由 于 有 大 约 T(R)/V(R, x) =50 个 元 组 的 x=1， 并 且 索 引 是 不 聚集 的 ， 我 们 需要 大 约 50 次 VO, 

3. 使 用 y 的 索引 以 及 索引 扫描 来 找 出 y=2 的 元 组 ， 然 后 对 这 些 元 组 进行 过 滤 来 检测 x = 1 以 
及 z*<5。 使 用 这 个 非 聚集 索引 的 代价 大 约 为 T(R)AV(R，y) ,或 者 是 10 次 磁盘 IO。 

4. 使 用 z 的 索引 以 及 索引 扫描 来 找 出 z<5 的 元 组 ， 然 后 对 这 些 元 组 进行 过 滤 来 检测 x =1 以 
及 y=2。 磁盘 VO 数 大 约 为 B(R)/3 =67。 

我 们 看 到 代价 最 小 的 计划 是 第 三 种 ， 估 计 代 价 为 10 次 磁盘 WO。 因此 ， 这 个 选择 的 最 佳 物 
理 计 划 搜 索 所 有 y =2 的 元 组 ， 然 后 为 另外 两 个 条 件 进 行 过 滤 。 口 


5.7.2 选取 连接 方法 
在 第 4 章 中 我 们 看 到 与 各 种 连接 算法 相 联系 的 代价 。 假 设 我 们 知道 (或 者 可 以 估计 ) 执行 连 


日 ”回想 一 下 ,我 们 假设 典型 的 不 等 式 检索 1/3 的 等 式 ,在 5.4. 3 节 中 讨论 了 原因 。 
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接 可 用 的 缓冲 区 的 容量 ， 则 我 们 可 以 对 排序 连接 使 用 4. 4. 9 节 中 的 公式 ， 对 散 列 连接 使 用 4. 5.7 
节 中 的 公式 ， 以 及 对 索引 连接 使 用 4. 6. 3 节 和 4.6.4 节 中 的 公式 。 

然而 ， 如 果 我 们 不 能 确定 ， 或 者 不 知道 执行 这 个 查询 可 用 的 缓冲 区 的 容量 (因为 我 们 不 知道 
DBMS 同时 在 做 什么 其 他 的 事情 ) ， 或 者 如 果 我 们 没有 重要 的 大 小 参数 ， 比 如 VR，a) 的 估计 值 ， 
则 仍 有 一 些 重要 的 原则 使 我 们 可 以 用 来 选择 一 个 连接 方法 。 同 样 的 思想 适用 于 其 他 二 元 运算 ， 
例如 并 ， 以 及 完全 关系 、 一 元 运算 符 、y 和 5。 
一 个 方法 是 调用 一 趟 连接 ， 希 望 缓冲 区 管理 器 可 以 为 连接 分 配 足 够 的 缓冲 区 ， 或 者 缓冲 
区 管理 器 可 以 关闭 ， 所 以 颠 艇 不 是 一 个 主要 的 代价 。 另 一 个 可 替代 的 方法 (只 用 于 连接 ， 
而 不 用 于 其 他 二 元 运算 符 ) 是 选择 一 个 嵌 套 循环 连接 ， 希 望 如 果 不 能 保证 为 左 参 数 分 配 足 
够 的 缓冲 区 立刻 装 入 内 存 ， 则 参数 将 不 会 被 分 解 成 太 多 的 片 ， 并 且 结 果 连 接 将 仍 是 合理 
的 和 有 效 的 。 
当 以 下 两 点 中 的 任意 一 点 成 立时 排序 连接 就 是 一 个 好 的 选择 : 
a) 一 个 或 两 个 参数 已 经 在 它们 的 连接 属性 上 排序 。 
b) 对 于 同样 的 属性 有 两 个 或 多 个 连接 ， 例 如 


(R(a, b) m S(a,c)) mT(a,d) 


其 中 基于 a 对 丸和 3 进行 排序 将 会 引起 ROS 的 结果 在 a。 上 被 排序 ， 并 且 在 第 二 个 排 
序 连接 中 被 直接 使 用 。 
如 果 有 一 个 索引 的 机 会 ， 例 如 一 个 连接 R(a, 5b)m 5S(5，c)， 其 中 尺 被 期 望 是 很 小 的 (也 
许 是 基于 键 的 一 个 选择 ， 它 的 结果 是 一 个 元 组 ) ， 并 且 有 一 个 连接 属性 S.5 上 的 索引 ， 则 
我 们 应 该 选择 一 个 索引 连接 。 
如 果 没 有 机 会 利用 已 经 排序 的 关系 或 索引 ， 并 且 需 要 多 饥 连 接 ， 则 散 列 连接 也 许 是 最 佳 
选择 ， 因 为 它 所 需要 的 扫描 次 数 取 决 于 较 小 参数 的 大 小 而 不 是 两 个 参数 的 大 小 。 


5.7.3 流水 操作 与 物化 

我 们 将 讨论 与 物理 查询 计划 有 关 的 最 后 一 个 主要 的 话题 ， 那 就 是 结果 的 流水 操作 。 执 行 一 
个 查询 计划 的 原始 方法 是 对 运算 进行 适当 的 排序 ( 即 直到 位 于 一 个 运算 下 面 的 参数 已 经 被 执行 后 
它 才 被 执行 ) ， 并 且 将 每 个 运算 的 结果 存储 在 磁盘 上 直到 它 被 另 一 个 运算 所 需要 。 这 个 策略 叫做 
物化 ， 因 为 每 个 中 间 关 系 在 磁盘 上 被 物化 。 

执行 一 个 查询 计划 的 一 个 更 巧妙 、 更 有 效 的 方法 是 一 次 同时 交错 进行 几 个 运算 。 由 一 个 运 
算 产 生 的 元 组 直接 传递 给 使 用 它 的 运算 ， 不 需要 将 中 间 元 组 存储 在 磁盘 上 。 这 个 方法 叫做 流水 
操作 ， 一 般 由 一 个 迭代 器 网 络 (参见 4.1.6 节 ) 执 行 ， 该 迭代 器 网 络 的 方法 在 适当 的 时 候 互相 调 
用 。 由 于 它 节 省 了 磁盘 IO， 流 水 操作 有 明显 的 优点 ， 但 是 也 有 相应 的 缺点 。 由 于 任何 时 候 几 个 
运算 必须 共享 内 存 ， 就 有 可 能 必须 选择 有 更 高 磁盘 LO 需求 的 算法 ， 或 者 将 会 发 生 颠 艇 ， 从 而 耗 
费 掉 由 流水 操作 所 节省 的 所 有 磁盘 IO， 甚 至 可 能 更 多 。 


内 存 中 的 物化 
可 以 想象 在 流水 操作 与 物化 之 间 有 一 个 中 间 方 法 ， 在 该 方法 中 一 个 操作 的 整个 结果 在 被 
传递 给 消费 操作 之 前 被 存储 在 主 存 缓冲 区 (不 是 磁盘 ) 。 我 们 视 操 作 的 这 种 可 能 的 模式 为 流水 
操作 ， 消 费 操作 所 做 的 第 一 件 事情 是 在 内 存 中 对 整个 关系 ， 或 者 关系 的 大 部 分 进行 组 织 。 这 
种 行为 的 一 个 例子 是 一 个 这 样 的 选择 ， 该 选择 的 结果 是 作为 左 参数 被 送 给 几 个 连接 算法 中 的 
一 个 ， 包 括 简 单 的 一 趟 连接 、 多 趟 无 序 连 接 或 者 排序 连接 。 
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5.7.4 一 元 流水 运算 
一 元 运算 一 一 选择 和 投影 一 一 是 流水 操作 极 好 的 选择 物 。 由 于 这 些 运算 是 一 次 一 个 元 组 ， 
我 们 从 不 需要 有 多 个 块 的 输入 输出 。 图 4-5 给 出 了 消费 者 
这 种 运算 模式 。 GetNext 
我 们 可 以 通过 和 迭代 器 来 执行 一 个 一 元 流水 操作 ， 
正如 4.1.6 节 中 所 讨论 的 。 每 次 需要 另 一 个 元 组 时 ， 
流水 操作 结果 的 消费 者 就 调用 GetNext( ) 。 在 投影 的 
情况 下 ， 只 需要 对 元 组 源 调用 GetNext( ) 一 次 ， 对 ”重复 地 调用 GetNext 
那个 元 组 进行 适当 的 投影 ， 并 将 结果 返回 给 消费 
者 。 对 于 选择 o (从 技术 上 是 物理 操作 Filter R 
(C)), ， 也 许 需要 对 源 调用 GetNext()# Fi, HE) 5-36 ”使 用 迭代 器 执行 一 个 选择 的 流水 操作 
找到 一 个 满足 条 件 C 的 元 组 。 图 5-36 给 出 了 这 个 过 程 。 
5.7.5 二 元 运算 的 流水 操作 
二 元 运算 的 结果 也 可 以 进行 流水 操作 。 我 们 使 用 一 个 缓冲 区 将 结果 传递 给 消费 者 ， 一 次 一 
块 。 然 而 ,计算 结果 和 消费 结果 所 需 的 其 他 缓冲 区 数目 是 不 同 的 ， 它 们 取决 于 结果 的 大 小 以 及 参 
数 的 大 小 。 我 们 将 使 用 一 个 扩展 的 例子 来 演示 折 中 和 机 会 。 
例 5. 36 让 我 们 考虑 下 列表 达 式 的 物理 查询 计划 


(R(w, x) ma S(z,y)) ma Uy, z) 


满足 条 件 C 
的 元 组 





我 们 假设 以 下 条 件 成 立 : 

1. 民 占据 5000 块 ; S 和 UU 各 占用 10 000 H, 

2. SHEA, PI ROS 占用 上 块 。 

3. 将 两 个 连接 作为 散 列 连接 来 执行 ， 或 者 是 一 趟 连接 或 者 是 两 趟 连接 ， 这 取决 于 有 

4. 有 101 个 可 用 的 缓冲 区 。 这 个 数目 ， 人 为 地 被 设 得 较 低 。 

图 5-37 是 带 有 关键 参数 的 表达 式 的 一 个 框架 。 

首先 ， BREE RMS, CEP PRAT D< 
系 存在 ， 所 以 我 们 需要 一 个 两 趟 的 散 列 连 接 。 如 R AA N 
果 较 小 关系 在 第 一 趟 RR 被 分 成 最 大 的 可 能 值 100 > VOD 
块 ， 那 么 每 个 及 的 桶 占据 50 He OH R RHE Ro sàn 个 类 
50 块 ， 则 散 列 连接 ROS 的 第 二 趟 将 使 用 51 个 组 50007 $e 10.000 
冲 区 ， 其 中 的 50 个 缓冲 区 用 于 Rm 5 的 结果 与 U 
的 连接 。 图 5-37 例 5.36 的 逻辑 查询 计划 和 参数 

现在 ,假设 <49; 即 ROS 的 结果 最 多 占用 和 9 块 。 那 么 我 们 可 以 将 RmS 的 结果 流水 操作 
进入 49 个 缓冲 区 ， 将 它们 进行 组 织 以 便 作为 一 个 散 列 表 来 查看 ， 并 且 我 们 利用 一 个 缓冲 区 来 依 
次 读 人 忌 的 每 一 块 。 我 们 可 以 将 第 二 趟 连接 作为 一 趟 连接 来 执行 。 磁 盘 IO 的 总 数 为 : 

a)45 000, HT RAS 的 两 趟 散 列 连接 。 

b)10 000, E( ROSS) U 的 一 趟 散 列 连接 中 读 人 UU。 

总 的 为 55 000 次 磁盘 LO, 

现在 , 假设 >49, 但 是 <5000。 我 们 仍 可 以 将 Rm5 的 结果 进行 流水 操作 ， 但 我 们 需要 使 


O ”按照 惯例 ,我 们 假设 元 组 在 装 和 人 所 有 桶 时 ， 每 个 桶 都 正好 装 满 。 
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用 另 一 个 策略 ， 在 这 个 策略 中 ， 该 关系 与 0 进行 一 个 50 个 桶 的 两 趟 散 列 连接 。 

1. EF RS 之 前 ,我 们 将 UU 装 进 每 个 200 块 的 50 个 桶 。 

2. 接 下 来 ,我 们 像 前 面 一 样 用 51 MEX R A S 进行 一 个 两 趟 的 散 列 连接 ， 但 是 当 愉 ES 的 
每 个 元 组 产生 时 ， 我 们 将 它 放 人 用 于 形成 50 桶 来 将 ROSS 和 局 进行 连接 的 50 个 剩余 缓冲 区 中 的 
一 个 。 当 这 些 缓冲 区 装 满 时 就 写 人 磁盘 ， 对 一 个 两 趟 散 列 连接 来 说 这 是 很 正常 的 。 

3. 最 后 ,我 们 一 桶 一 桶 地 将 RmS AU PEATE. HF k<5000, RAS 的 桶 的 大 小 最 多 为 
100 块 ， 因 此 这 个 连接 是 可 行 的 。U 的 桶 的 大 小 为 200 块 这 不 是 一 个 问题 ， 因 为 在 桶 的 一 趟 连接 
P, RIH RSS 的 桶 作为 构造 用 关系 ， 而 乙 的 桶 作为 探查 用 关系 。 

这 个 流水 操作 的 连接 的 磁盘 LO 数 为 : 

a)20 000， 用 于 读 取 上 并 将 它 的 元 组 写 人 桶 。 

b)45 000， 用 于 执行 ROS 的 两 趟 散 列 连接 。 

c)k ATEH RS 的 桶 。 

d) +10 000 用 于 读 取 最 终 连接 中 的 RMS 和 0 的 桶 。 

全 部 代价 为 75 000 + 2k, HER, “4k M49 增长 到 50 时 有 明显 的 不 连续 性 ， 因 为 我 们 必须 将 最 终 
连接 从 一 趟 改变 为 两 趟 。 在 实际 应 用 中 ， 该 代价 不 会 如 此 剧烈 地 变化 ， 因 为 即使 没有 足够 的 缓冲 
区 以 及 发 生 小 的 抖动 ， 我 们 也 可 以 使 用 一 趟 连接 。 

最 后 ， 让 我 们 考 虚 当 >5000 时 会 有 什么 情况 发 生 。 现 在 ， 人 
则 我 们 不 能 在 所 得 到 的 50 个 桶 中 执行 一 个 两 趟 连接 。 我 们 可 以 使 用 一 个 三 趟 连接 ， 但 是 那样 的 
话 一 个 参数 的 每 闫 需要 额外 的 2 VERE UO. BH 20000 « 2K-AHA ome VO. MARNI 
为 不 对 Rm S 进行 流水 操作 ， 则 我 们 可 以 做 得 更 好 。 现 在 ， 连 接 计算 的 要 点 是 这 样 的 ; 

1. 用 一 个 两 越 散 列 连 接 计算 ROS, HARARE. 

2. ROS AU 进行 连接 ,仍然 使 用 一 个 两 越 散 列 连 接 。 注 意 由 于 BCU) =10 000， 我 们 可 
以 用 100 个 桶 执行 一 个 两 趋 散 列 连 接 ， 而 不 考虑 有 的 值 的 大 小 。 从 技术 上 说 ， 如 果 我 们 决定 将 U 
作为 散 列 连接 的 构造 用 关系 的 话 ， 那 么 上 应 该 作为 其 在 图 5-37 中 的 连接 的 左 参数 。 

这 个 算计 划 的 磁盘 IO BH: 

a)45 000, HF RA S 的 两 趟 连接 。 

b)k, ATH ROSS 存储 在 磁盘 上 。 

c)30 000 +3k， 用 于 U 和 RmS 的 两 趟 5 散 列 连接 。 

全 部 代价 为 75 000 +4#， 它 要 小 于 在 最 后 一 步 进行 一 个 三 趟 连接 时 的 代价 。 图 5-38 所 示 的 表 总 
结 了 这 3 个 完整 的 计划 。 口 


最 后 的 连接 
的 算法 总 的 磁盘 IO 
Pres | 


50 = k = 5000 EEEn ene T sofi, 


图 5-38 作为 Rm5 大 小 的 函数 的 物理 计划 的 代价 



















5.7.6 物理 查询 计划 的 符号 

我 们 已 经 看 到 了 许多 可 以 用 于 形成 一 个 物理 查询 计划 的 运算 符 的 例子 。 一 般 来 说 ， 逻 辑 计 
划 的 每 个 运算 符 成 为 物理 计划 的 一 个 或 多 个 运算 符 ， 逻辑 计划 的 叶子 成 为 物理 计划 的 适用 于 那 
个 关系 的 一 个 扫描 运算 符 。 另 外 ， 当 物化 结果 被 其 消费 者 访问 时 ， 物 化 会 被 一 个 存储 Store 运算 
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符 指 示 为 应 用 于 将 要 被 物化 的 中 间 结 果 ， 跟 随 着 一 个 合适 的 扫描 运算 符 ( 常 为 TableScan， 因 为 中 
间 关 系 没有 索引 直到 明确 地 创建 一 个 ) 。 然 而 ， 为 简便 起 见 ， 在 物理 查询 计划 树 中 我 们 将 指出 一 
个 特定 的 中 间 关 系 被 一 个 与 在 那个 关系 和 其 消费 者 之 间 的 边 交叉 的 双 线 进行 物化 。 所 有 其 他 边 
则 表示 元 组 的 提供 者 和 消费 者 之 间 的 流水 操作 。 

我 们 现在 把 通常 出 现在 物理 查询 计划 中 的 各 种 不 同 的 运算 符 进 行 分 类 。 不 像 关系 代数 ， 

的 符号 一 般 是 标准 的 ， 对 物理 查询 计划 来 说 ， 每 个 DBMS 将 利用 其 本 身 的 内 部 符号 。 

叶子 的 运算 符 

作为 逻辑 查询 计划 树 的 叶子 操作 对 象 的 每 个 关系 R 将 被 一 个 扫描 运算 符 所 蔡 代 。 这 些 运算 
符 为 : 

1. TableSan( R): 以 任意 顺序 读 和 人 所 有 存放 RR 的 元 组 的 块 。 

2. SortScan(R, L): 按照 顺序 恋人 R 的 元 组 ， 并 以 列 工 中 的 属性 进行 排列 。 

3. IndexScan(R, C): 这 里 C 是 形 如 Abe 的 一 个 条 件 ， 其 中 4 是 R 的 一 个 属性 ，9 是 一 个 比较 
运算 符 例 如 = 或 者 < ,c 是 一 个 常量 。 可 以 通过 属性 A 上 的 一 个 索引 来 访问 R 的 元 组 。 如 果 比 较 
运算 符 0 不 是 = ， 则 索引 必须 是 一 个 支持 范围 查询 的 索引 ， 例 如 B - 树 。 

4. IndexScan(R, A): 这 里 4 ÆREDE. ARRERA 上 的 一 个 索引 被 检索 。 这 个 
运算 符 看 起 来 像 TabljeSean， 但 是 如 果 尺 不 是 聚集 的 ， 该 运算 符 也 许 会 更 有 效 。 

选择 的 物理 运算 符 

4 RE—TSAAAN, KAR OWATKE SERRE o.(R) 进行 联合 或 部 分 联合 。 
其 他 参数 不 是 存储 关系 或 者 没有 一 个 合适 的 索引 的 选择 ， 将 被 相应 的 称 作 Filter 的 物理 运算 符 所 
替代 。 我 们 在 5.7.1 节 中 讨论 过 对 选择 运算 的 实现 方法 进行 选取 的 策略 。 用 于 不 同 的 选择 运算 实 
现 方法 的 符号 有 

1. 我 们 可 以 简单 地 用 运算 符 Filter(C) 替代 o(R)o WR R ERARIS, 或 者 没有 条 件 C 提 
到 的 属性 上 的 索引 ， 则 该 选择 是 有 意义 的 。 如 果 选 择 运 算 的 参数 RR 实际 上 是 一 个 被 流水 操作 进 
人 该 选择 的 中 间 关 系 ， 则 除了 Filter 以 外 ， 不 需要 其 他 的 运算 符 。 如 果 尺 是 一 个 存储 关系 或 物化 
关系 ， 则 我 们 必须 使 用 一 个 运算 符 (TableScan 或 者 SortSean(L)) KWE Ro WR ere( 尽 ) 的 结果 以 
后 将 被 传递 给 一 个 需要 其 参数 被 排序 的 运算 符 ， 则 我 们 也 许 偏向 于 排序 扫描 。 

2. BORAGE C 能 够 被 表示 为 ABCANDD( D 是 某 个 其 他 条 件 ) ， 并 且 有 一 个 R. 4 上 的 索引 ， 则 
我 们 可 以 : 

a) 使 用 运算 符 IndexScan(RR，4hgc) 来 访问 Ro 

b) 使 用 Filter(D) 来 替代 选择 oc(R)。 

物理 排序 运算 符 

一 个 关系 的 排序 可 能 发 生 在 物理 查询 计划 中 任何 一 点 。 我 们 已 经 介绍 了 SortScan(R, 工 ) 运算 
符 ， 该 运算 读 取 一 个 经 过 排序 的 关系 RR 并且 根 据 属性 工 的 列表 对 它 进行 排序 。 当 我 们 在 诸如 连 
接 或 分 组 的 运算 中 采用 一 个 基于 排序 的 算法 时 ， 有 一 个 我 们 根据 某 些 属性 列表 对 参数 进行 排序 
的 初始 化 过 程 。 一 般 使 用 一 个 显 式 的 物理 运算 符 Sort(Z) 来 对 没有 排序 的 一 个 操作 对 象 关系 进行 
排序 。 如 果 是 由 于 在 原始 查询 中 的 ORDER BY 子 句 使 得 结果 需要 被 排序 时 ， 则 该 运算 符 也 可 以 
用 于 物理 查询 计划 的 顶层 ， 从 而 起 到 和 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》$.2. 6 节 中 的 .9 运算 
符 同 样 的 作用 。 

其 他 关系 代数 运算 

所 有 其 他 运算 被 一 个 适当 的 物理 运算 符 所 替代 。 这 些 运 算 符 可 以 被 给 予 标识 的 名 称 用 以 
指明 ， 
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1. 被 执行 的 运算 ， 例 如 ， 并 或 分 组 。 
2. 必 不 可 少 的 参数 ， 例 如 ，9 连接 中 条 件 或 分 组 中 的 元 素 列 表 。 
3. 算法 的 一 般 策 略 : 基于 排序 的 、 基 于 散 列 的 ， 或 者 基于 索引 的 ， 等 等 。 
4, 关于 要 用 到 的 遍历 数 的 一 个 决定 : 一 趟 ， 两 不， 多 趟 (递归 ， 依 据 手 头 的 数据 需要 多 少 趟 
就 做 多 少 趟 ) 。 或 者 ， 该 选择 可 以 保留 直到 运行 时 。 
5. 操作 所 需 的 预期 缓冲 区 数 。 se. | 
例 5.37 图 5-39 所 示 为 例 5.36 中 在 k>5000 的 101 个 组 冲 区 
情况 下 所 生成 的 物理 计划 。 在 这 个 计划 中 ， 我 们 通过 Xx 
表 扫描 来 访问 3 个 关系 中 的 每 一 个 。 我 们 对 第 一 个 连 sn 
接 使 用 两 趟 散 列 连接 ， 对 它 进行 物化 ， 并 且 对 第 二 个 Ea 
连接 使 用 两 趟 散 列 连接 。 由 表示 物化 的 双 线 符 号 的 暗 101 个 缓冲 区 
示 ， 项 部 连接 的 左 参数 也 是 通过 表 扫描 获得 的 ， 并 且 N 
使 用 Store 运算 符 来 存储 第 一 个 连接 的 结果 。 TableScan(R) TablescanfS 1) 


FAR, WR k< =49， 则 在 例 5.36 中 所 生成 的 物 图 5-39 Bi 5. 36 的 一 个 物理 计划 
理 计划 如 图 5-40 所 示 。 注 意 第 二 个 连接 使 用 了 不 同 的 
趟 数 、 不 同 数目 的 缓冲 区 ， 并 且 左 参数 是 被 流水 化 而 没有 被 物化 的 。 口 
| 
BAER 
50 个 缓冲 区 
> N 


TableScan(U) 
Filter (x=1 AND z<5) 


两 趟 
散 列 连接 
101 个 缓冲 区 


一 N 


TableScan(R) TableScan(S ) IndexScan(R, y=2) 
图 5-40 FE RDS 非常 小 的 情况 下 的 另 一 个 物理 计划 图 5-41 使 用 最 佳 索 引 的 一 个 选择 


例 5. 38 考虑 例 5.35 中 的 选择 运算 ， 该 例 中 我 们 决定 最 佳 选择 是 使 用 y 上 的 索引 来 寻找 7 
=2 的 那些 元 组 ， 然 后 用 其 他 条 件 x =1 和 z<5 来 检查 这 些 元 组 。 如 图 5-41 所 示 为 物理 查询 计 
划 。 叶 子 表示 R 将 通过 y 上 的 索引 被 访问 ， 只 找 出 y=2 的 元 组 。 过 滤器 运算 符 表明 我 们 通过 进 
一 步 选 择 找 出 满足 x=1 以 及 z<5 的 元 组 来 完成 选择 运算 。 口 


5.7.7 物理 运算 的 排序 

我 们 关于 物理 查询 计划 的 最 后 一 个 主题 是 运算 的 排序 。 通 常 物理 查询 计划 被 表示 为 一 棵 树 ， 
树 表 示 了 一 些 关于 运算 顺序 的 东西 ， 因 为 数据 必须 沿 着 树 流动 。 然 而 ， 由 于 浓密 树 可 以 有 内 部 结 
点 ， 它 们 互相 既 不 是 祖先 也 不 是 后 代 ， 计 算 内 部 结 点 的 顺序 并 不 总 是 清楚 的 。 另 外 ， 由 于 可 以 使 
用 迭代 器 来 执行 流水 操作 方式 的 运算 ， 有 可 能 不 同 结 点 的 执行 时 间 会 交 倒 ， 结 点 顺序 的 概念 就 
没有 意义 了 。 

如 果 以 明显 的 存储 和 稍 晚 再 检索 ( store-and-later-retrieve ) 方式 执行 物化 ， 并 以 迭代 器 执行 流 
水 操作 ， 则 我 们 可 以 建立 一 个 物理 计划 的 每 一 个 运算 被 执行 的 固定 的 事件 序列 。 以 下 的 规则 总 
结 了 在 一 个 物理 查询 计划 树 中 所 隐 含 的 事件 的 顺序 : 

1. 在 每 一 条 表示 物化 的 边 处 将 树 分 解 为 子 树 。 子 树 将 一 次 一 个 地 被 执行 。 

2. 以 从 下 到 上 ， 从 左 到 右 的 顺序 依次 执行 各 子 树 。 精 确 地 说 ， 执 行 整 棵 树 的 一 个 前 序 遍 历 。 
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以 前 序 遍 历 在 子 树 中 存在 的 顺序 对 子 树 进行 排序 。 

3. 使 用 一 个 迭代 器 网 络 来 执行 每 一 棵 子 树 的 所 有 结 点 。 因 此 ， 在 一 棵 子 树 中 所 有 结 点 被 同 
步 地 执行 ， 在 它们 的 运算 符 间 用 GetNext 调用 来 决定 事件 的 确切 顺序 。 

根据 这 个 策略 ， 查 询 优化 现在 能 够 为 查询 生成 执行 代码 ， 也 许 是 一 个 函数 调用 序列 。 


5.7.8 习题 

习题 5. 7. 1 考虑 一 个 关系 R(a, 5，c，d) ,该 关系 有 一 个 a。 上 的 聚 艇 索引 以 及 每 一 个 其 他 属性 上 的 非 聚 簇 
索引 。 相 关 参 数 为 : BCR) =500, T(R) =5000, V(R, a) =50, V(R, b) =1000, V(R, c) =5000, V(R, 
d) =500。 给 出 最 佳 查询 计划 (索引 扫描 或 者 表 扫 描 然 后 进行 一 个 过 滤器 步骤 ) 以 及 下 列 选择 运算 的 每 一 个 
的 磁盘 LO 开销 : 
a) aa=1 AND b=2 AND c>3(R), 


b) oo=1 AND b<2 and c>3(R), 


c) Ca=1 AND b=2 AND d=3(R), 
习题 5. 7. 2 如 果 关 系 RK) 5000 块 ， 而 是 以 下 数值 时 ， 在 例 5. 36 中 关于 何 时 进行 流水 操作 的 结论 
将 会 如 何 变化 : a)1000 块 ; ! b) 100 块 ; ! c) 10 000 t, 
1 习题 5.7.3 FR BCR). T(R), V(R, x) 和 V(R，y) 来 表示 以 下 关于 尺 上 选择 运算 的 执行 代价 的 如 下 条 件 : 
a) 通 过 x 上 的 一 个 非 聚 艇 索引 以 及 使 x 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 比 通过 y LM—-7*+RER 
引 以 及 使 y 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 好 。 
b) it « 上 的 一 个 非 聚 艇 索引 以 及 使 * 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 比 通过 y 上 的 一 个 聚 簇 索 
引 以 及 对 某 个 常量 C 使 y>C 的 条 件 来 使 用 索引 扫描 好 。 
c) 通 过 x 上 的 一 个 非 聚 艇 索引 及 使 x 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 ， 要 上 比 通过 y 上 的 一 个 非 聚 簇 索 
引 以 及 使 y 等 于 一 个 常量 的 条 件 来 使 用 索引 扫描 好 。 
1! 习题 5. 7. 4 ”假设 我 们 想 以 给 定 的 顺序 计算 (R(a,， 5)M4S(a,，c))m4T(a，d)。 我 们 用 =101 的 内 存 缓冲 
K, 并 且 B(R) =B(S) =2000。 由 于 连接 属性 a 对 两 个 连接 来 说 是 相同 的 ， 我们 决定 通过 一 个 两 趋 排序 连 
接 来 执行 第 一 个 连接 RES， 并 且 我 们 将 对 第 二 个 连接 使 用 合适 的 趟 数 ， 先 将 了 分 为 一 些 在 a。 上 排序 的 子 
al, PENSE ROS 的 经 过 排序 和 流水 操作 的 元 组 流 进行 归并 。 对 于 7 与 以 S 连接 我 们 应 该 为 
BCT) 选择 什么 值 : 
a) 一 趟 连接 ; BURT TRAN, ROS 的 元 组 被 生成 时 将 它们 与 RS 的 元 组 进行 比较 。 
b) 两 趟 连接 ; 即 当 我 们 生成 R45 的 元 组 时 ， 我 们 为 了 创建 经 过 排序 的 子 列 并 且 为 每 一 个 排序 子 列 在 内 
存 中 保留 一 个 缓冲 区 。 


5.8 Whe 


。 查询 的 编译 : 编译 将 一 个 查询 变 成 一 个 物理 查询 计划 ， 即 一 个 能 够 由 查询 执行 引擎 执行 
的 运算 序列 。 查 询 编译 的 主要 步骤 是 : 分 析 , 语义 检查 ， 选 择 较 优 的 逻辑 查询 计划 (代数 
表达 式 ) ， 以 及 基于 以 上 步骤 生成 最 佳 物理 计划 。 

。 分 析 器 : 处 理 一 个 SQL 查询 过 程 中 的 第 一 个 步骤 是 对 其 进行 分 析 ， 就 像 任何 编程 语言 
中 需要 对 源 代码 所 做 的 一 样 。 分 析 的 结果 是 其 结 点 与 SQL 结构 相对 应 的 一 棵 语法 分 
析 树 。 

© 视图 展开 : 引用 虚 视 图 的 查询 必须 将 语法 分 析 树 中 的 引用 替换 成 定义 对 应 视图 的 表达 式 
的 树 。 这 个 展开 通常 可 以 创造 一 些 优 化 整个 查询 的 机 会 

e 语义 检查 : 一 个 预 处 理 器 检查 语法 分 析 树 ,检查 其 属性 、 关 系 名 以 及 类 型 是 有 意义 的 ， 
并 且 解 决 属性 参照 的 问题 。 

。 转换 为 逻辑 查询 计划 : 查询 处 理 器 必须 将 经 过 语义 检查 的 语法 分 析 树 转换 为 一 个 代数 表 
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达 式 。 转 换 为 关系 代数 工作 的 绝 大 部 分 是 简单 的 ， 但 是 子 查询 是 一 个 问题 。 一 个 方法 是 
引进 一 个 两 参数 的 选择 ， 将 子 查询 放 人 选择 条 件 中 ， 然 后 使 用 恰当 的 覆盖 常见 的 特殊 情 
况 的 转换 。 

代数 转换 : 使 用 代数 转换 规则 ， 有 许多 方法 来 将 一 个 多 辑 查询 计划 转换 为 一 个 更 好 的 计 
划 。5. 2 节 罗 列 了 基本 的 规则 。 

选择 一 个 逻辑 查询 计划 : 查询 处 理 器 必须 选择 最 有 可 能 成 为 一 个 有 效 物理 计划 的 查询 计 
划 。 除 了 使 用 代数 转换 ， 将 可 合并 且 可 交换 的 运算 符 ， 尤其 是 连接 运算 符 ， 进 行 分 组 是 
有 利 的 ， 所 以 物理 查询 计划 可 以 选择 最 佳 顺 序 并 对 这 些 运算 进行 分 组 。 

估计 关系 的 大 小 : 当选 择 最 优 逻辑 计划 时 ， 或 者 当 对 连接 或 其 他 可 合并 - 交换 运算 进行 
排序 时 ， 我 们 使 用 中 间 关 系 的 估计 大 小 ， 代 替 我 们 最 终 选 择 的 物理 计划 的 真正 运行 时 间 。 
已 知 的 或 估计 的 关系 的 大 小 (元 组 数 ) 和 每 个 关系 的 每 个 属性 的 相 异 值 的 数目 ， 两 者 都 帮 
助 我 们 获得 中 间 关 系 大 小 的 较 好 的 估计 。 

直方 图 : 一 些 系统 保持 一 个 给 定 属 性 的 值 的 直方 图 。 该 信息 可 以 被 用 来 获得 中 间 关 系 大 
小 的 估计 ， 这 个 估计 要 好 于 这 里 所 提 到 的 简单 方法 。 

基于 代价 的 优化 : 当选 择 最 佳 物理 计划 时 ， 我 们 必须 估计 每 一 个 可 能 计划 的 代价 。 使 用 
不 同 的 策略 来 生成 所 有 或 一 些 执行 一 个 给 定 逻 辑 计划 的 可 能 的 物理 计划 。 

计划 枚 举 策略 : 在 物理 计划 空间 中 选择 最 佳 的 通用 方法 包括 动态 规划 (为 给 定 逻 辑 计 
划 的 每 一 个 子 表达 式 的 最 佳 计划 列 成 表格 ) Selinger 风格 的 动态 规划 (包括 作为 表 
的 一 部 分 的 结果 的 顺序 ,为 每 一 个 排序 的 以 及 未 排序 的 结果 给 出 最 佳 计 划 )、 贪 禁 
方法 (做 出 一 系列 局 部 最 优 的 决定 ， 从 已 有 的 物理 计划 中 选择 一 个 ) 以 及 分 支 和 边界 
(branch-and-bound) 法 (只 枚 举 那些 还 不 能 立即 知道 是 否 比 现 有 的 最 佳 计划 更 差 的 计 
划 ) 。 

左 深 连 接 树 : 当 为 几 个 关系 的 连接 选取 一 个 分 组 和 排序 时 ， 通常 将 搜索 限制 在 左 深 树 ， 
即 只 沿 着 左 侧 的 边 向 下 延伸 ， 右 子女 全 为 叶子 的 二 叉 树 。 这 种 形式 的 连接 表达 式 将 有 利 
于 生成 有 效 的 计划 ， 并 且 还 大 大 限制 了 需要 被 考虑 的 物理 计划 的 数目 。 

选择 运算 的 物理 计划 : 如 果 可 能 的 话 ， 一 个 选择 应 该 被 分 解 成 要 进行 选择 运算 的 关系 的 
索引 扫描 (通常 使 用 一 个 被 索引 的 属性 等 于 一 个 常量 的 条 件 ) ， 接 着 进行 一 个 过 滤器 运 
算 。 过 滤器 检查 通过 索引 扫描 搜索 到 的 元 组 ， 并 且 只 传递 那些 满足 选择 条 件 的 元 组 ， 而 
不 是 那些 基于 索引 扫描 的 元 组 。 

流水 操作 与 物化 : 理想 的 情况 下 ， 每 个 物理 运算 符 的 结果 被 另 一 个 运算 符 消 费 ， 结 果 
在 主 存 中 的 两 者 之 间 传 递 (“ 流 水 操作 ”) ， 也 许 使 用 一 个 迭代 器 来 控制 数据 从 一 个 流 
向 另 一 个 。 然 而 ， 有 时 存储 (“ 物 化”) 一 个 运算 符 的 结果 是 有 利 的 ， 它 节约 了 另 一 个 
运算 符 所 需 的 主 存 空间 。 因 此 ， 物 理 计 划 的 生成 应 该 考虑 中 间 关 系 的 流水 操作 以 及 
物化 。 
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第 6 章 系统 故障 对 策 


从 这 一 章 开 始 ， 我 们 集中 考虑 DBMS 中 控制 数据 访问 的 那些 部 分 。 我 们 要 考虑 的 主要 有 两 大 
问题 : 

1. 当 系 统 故障 发 生 时 数据 必须 受到 保护 。 本 章 讲 述 支持 可 恢复 性 这 一 目标 的 相应 技术 ， 可 
恢复 性 指 系统 发 生 某 些 故障 时 数据 的 完整 性 。 

2. 数据 不 能 仅仅 因为 几 个 本 身 无 错 的 查询 或 数据 库 更 新 同时 进行 就 受到 破坏 。 这 一 问题 在 
第 7 章 和 第 8 章 讨论 。 

支持 可 恢复 性 的 基础 技术 是 日 志 ， 日 志 以 一 种 安全 的 方式 记录 数据 库 变更 的 历史 。 我 们 将 
讨论 三 种 不 同类 型 的 日 志 ， 分 别称 为 “undo”、“ redo” 和 “undo/redo”。 我 们 还 将 讨论 恢复 ,恢复 
是 故障 发 生 后 使 用 日 志 重 建 对 数据 库 所 做 更 新 的 过 程 。 日 志和 恢复 的 一 个 重要 方面 是 要 避免 需 
要 追溯 到 很 久 以 前 的 日 志 这 一 情形 。 因 此 ， 我 们 将 要 学 习 称 为 “检查 点 ”的 重要 技术 ， 它 限制 了 
恢复 时 必须 检查 的 日 志 长 度 。 

在 最 后 一 节 中 ， 我 们 讨论 “备份 ”， 它 使 得 数据 库 不 仅 能 经 受 暂 时 的 系统 故障 ， 并 且 能 经 受 
整个 数据 库 丢 失 的 情况 。 在 这 种 情况 下 ， 我 们 必须 依赖 于 数据 库 的 一 个 近期 找 贝 (备份 ) 以 及 所 
有 幸存 的 日 志 信 息 ， 将 数据 库 恢 复 到 最 近 某 个 时 刻 的 状态 。 


6.1 可 恢复 操作 的 问题 和 模型 


我 们 从 可 能 发 生 的 问题 以 及 DBMS 针对 这 些 问题 能 做 什么 、 该 做 什么 着 手 ， 讨 论 如 何 对 付 故 
障 。 首 先 我 们 主要 讨论 “系统 故障 ”或 “崩溃 ”， 日 志和 恢复 机 制 的 设计 正 是 用 来 修复 这 几 类 错误 
的 。 在 6.1.4 节 我 们 还 将 引入 缓冲 区 管理 模型 ， 它 是 对 系统 错误 恢复 的 所 有 讨论 的 基础 。 下 一 章 
我 们 讨论 几 个 事务 并 发 访问 数据 库 时 仍 需 要 这 个 模型 。 


6.1.1 故障 模式 

在 数据 库 被 查询 和 更 新 时 可 能 发 生 多 种 多 样 的 问题 。 问 题 的 范围 从 键盘 输入 错误 数据 到 存 
储 数据 库 的 磁盘 所 在 房间 发 生 爆 炸 。 下 面 列 出 最 重要 的 故障 模式 及 DBMS 对 这 些 故障 所 能 采取 的 
行动 。 

错误 数据 输入 

有 的 数据 错误 是 不 可 能 被 检测 到 的 。 例 如 ， 如 果 某 个 职员 把 你 的 电话 号 码 中 的 一 位 输 错 了 ， 
数据 仍然 看 起 来 可 能 是 你 的 电话 号 码 。 但 是 ， 如 果 职 员 遗 漏 了 你 的 电话 号 码 中 的 一 位 ， 数 据 就 显 
然 是 错 的 了 ， 因 为 它 不 具有 电话 号 码 应 有 的 格式 。 处 理 数据 输入 错误 的 主要 技术 就 是 编写 约束 
和 触发 器 来 找 出 被 认为 是 错误 的 数据 。 

介质 故障 

磁盘 的 局 部 故障 ， 即 只 改变 一 位 或 少数 几 位 的 故障 ， 通 常 能 通过 与 磁盘 扇 区 相关 联 的 奇偶 
校 验 检测 到 ， 正 如 我 们 在 2.4. 2 节 中 讨论 的 那样 。 磁 头 损坏 ， 使 整个 磁盘 都 不 再 能 被 访问 ， 这 时 
通常 用 下 述 方法 中 的 一 个 或 两 个 来 处 理 : 

1. 采用 2.4 节 讨 论 的 某 种 RAD 模式 ， 这 样 丢失 的 磁盘 就 可 以 被 恢复 。 

2. 维护 一 个 备份 ， 即 数据 库 在 诸如 磁带 或 光盘 这 样 的 某 种 介质 上 的 一 个 拷贝 。 备 份 周 期 性 
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创建 ， 可 以 是 完全 的 或 增 量 式 的 ， 存 储 在 远离 数据 库 自身 的 某 个 安全 的 距离 以 外 。 我 们 将 在 6. 5 
节 讨 论 备份 。 

3. 我 们 可 以 不 采用 备份 ， 而 是 联机 保存 数据 库 的 宛 余 拷贝 ， 这 些 拷贝 分 布 在 几 个 结 点 上 。 
我 们 将 在 9. 6 节 讨 论 维护 这 些 拷贝 一 致 性 的 机 制 。 

灾难 性 故障 

这 类 故障 包括 容纳 数据 库 的 介质 完全 毁坏 的 多 种 情况 ， 例 如 数据 库 所 在 结 点 发 生 爆 炸 或 大 
火 以 及 恶意 破坏 。RAID 不 会 带 来 任何 帮助 ， 因 为 所 有 的 数据 盘 及 其 奇偶 校 验 盘 同时 失去 作用 。 
但 是 ， 用 于 防止 介质 故障 的 其 他 方法 (备份 和 元 余 、 分 布 的 拷贝 ) 也 可 以 用 来 防止 灾难 性 故障 。 

系统 故障 

查询 和 修改 数据 库 的 进程 称 为 事务 。 事 务 和 其 他 任何 程序 一 样 执行 一 系列 步骤 ， 通 常 这 些 
步骤 中 的 一 部 分 将 修改 数据 库 。 每 个 事务 有 一 个 状态 ， 代 表 该 事务 中 到 目前 为 止 已 发 生 了 什么 。 
状态 包括 所 执行 事务 代码 中 的 当前 位 置 和 所 有 以 后 将 会 需要 的 事务 局 部 变量 的 值 。 

系统 故障 是 导致 事务 状态 丢失 的 问题 。 典 型 的 系统 故障 包括 掉 电 和 软件 错误 。 由 于 内 存 是 
“ 易 失 性 的 ， 正 如 我 们 在 2.1.3 节 讨论 的 那样 ， 于 是 掉 电 会 导致 主 存 中 的 内 容 消失 ， 只 保存 于 
主 存 中 的 任何 事务 步 又 的 结果 也 同时 消失 了 ， 这 和 磁盘 ( 非 易 失 性 ) 的 情况 不 同 。 类 似 地 ， 一 个 
软件 错误 可 能 覆盖 主 存 的 一 部 分 内 容 ， 也 许 包括 构成 程序 状态 的 值 。 

当主 存 丢 失 时 ， 事 务 状态 就 丢失 了 ; 也 就 是 说 ， 我 们 不 再 能 确定 事务 的 哪些 部 分 (包括 它 对 
数据 库 的 修改 ) 已 经 进行 。 重 新 运行 事务 不 一 定 能 修复 问题 。 例 如 ， 如 果 事 务必 须 将 数据 库 中 的 
某 个 值 加 1 ， 我 们 并 不 知道 到 底 是 否 应 该 再 重复 加 1。 解 决 由 系统 错误 所 引起 问题 的 基本 方法 是 
在 分 离 的 、 非 易 失 性 的 日 志 中 记录 所 有 数据 库 更 新 ， 必 要 时 加 以 恢复 。 但 是 ， 要 保证 这 样 的 日 志 
记载 能 以 一 种 不 受 故障 干扰 的 方式 进行 ， 其 机 制 非常 复杂 ， 正 如 我 们 将 在 6. 2 节 看 到 的 那样 。 


6.1.2 关于 事务 的 进一步 讨论 

在 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》6. 6 节 中 我 们 从 SQL 编程 者 的 观点 介绍 了 事务 的 基 
本 概念 。 在 进入 对 数据 库 可 恢复 性 和 故障 恢复 的 讨论 之 前 ， 我 们 需要 更 详细 地 讨论 有 关 事 务 的 
基本 思想 。 

事务 是 数据 库 操作 执行 的 单位 。 例 如 ， 如 果 我 们 正在 向 一 个 SQL 系统 提交 即席 (ad-hoc ) 的 命 
S, 那么 每 一 个 查询 或 数据 库 更 新 语句 (加 上 所 引起 的 任何 触发 器 行为 ) 就 是 一 个 事务 。 当 我 们 
使 用 嵌入 式 SQL 接口 时 ， 事 务 的 范围 就 由 编程 者 控制 ， 它 既 可 以 包括 若干 查询 和 更 新 ， 又 可 以 
包括 在 宿主 语言 中 进行 的 操作 。 在 典型 的 嵌 人 式 SQL 系统 中 ,一 旦 对 数据 库 进行 的 操作 开始 执 
行 ， 事 务 就 随 之 开始 ， 而 事务 的 结束 使 用 显 式 的 COMMIT 或 ROLLBACK(“ 中 止 ”) 命令 。 

正如 我 们 将 在 6. 1. 3 节 中 讨论 的 那样 ， 事 务必 须 原子 地 执行 ， 即 全 做 或 全 不 做 ， 并 且 在 时 间 
上 看 起 来 似乎 它 是 在 某 个 时 刻 一 下 子 就 执行 完了 一 样 。 保 证 事务 正确 执行 是 事务 管理 器 的 工作 ， 
这 一 子 系统 完成 的 功能 包括 : 

1. 给 日 志 管 理 器 (下 面 讲 述 ) 发 信号 ， 使 必需 的 信息 能 以 “日 志 记 录 ” 的 形式 存储 在 日 志 中 。 

2. 保证 并 发 执行 的 事务 不 会 以 引入 错误 的 方式 相互 干扰 ( 见 7.1 节 “ 调 度 ”) 。 

事务 管理 器 及 其 相互 作用 如 图 6-1 所 示 。 事 务 管理 器 将 关于 事务 动作 的 消息 传 给 日 志 管理 
器 ， 将 关于 何 时 可 以 或 必须 将 缓冲 区 拷 回 磁盘 的 消息 传 给 缓冲 区 管理 器 ， 并 传 消息 给 查询 处 理 
器 使 之 能 执行 查询 以 及 其 他 构成 事务 的 数据 库 操 作 。 

日 志 管 理 器 维护 日 志 。 它 必须 同 缓冲 区 管理 器 打交道 ， 因 为 日 志 的 空间 最 初出 现在 主 存 组 
冲 区 中 ， 在 一 定 的 时 候 这 些 缓冲 区 必须 被 拷贝 到 磁盘 上 。 日 志和 数据 一 样 占 用 磁盘 上 的 空间 ， 正 
如 我 们 在 图 6-1 中 表示 的 那样 。 
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最 后 ， 我 们 在 图 6-1 HAH TKR. MRE, KAS. CRAH 
志 并 在 必要 时 利用 日 志 恢 复数 据 。 和 平常 一 样 ， 对 磁盘 的 访问 是 通过 缓冲 区 管理 器 来 进行 的 。. 


6.1.3 事务 的 正确 执行 

在 我 们 讨论 如 何 纠 正 系统 的 错误 之 前 ， 我 们 必须 
理解 事务 “正确 "执行 意味 着 什么 。 我 们 首先 假设 数据 
库 由 “元 素 " 组 成 。 我 们 并 不 打算 精确 定义 什么 是 “元 
素 " ， 而 只 是 指出 元 素 具 有 一 个 值 并 且 能 被 事务 访问 或 
修改 。 不 同 的 数据 库 系统 使 用 不 同 的 元 素 概念 ， 但 它 
们 常常 是 下 述 的 一 个 或 多 个 ; 

1. 关系 。 

2. 磁盘 块 或 页 。 

3. 关系 中 的 单个 元 组 或 对 象 。 

在 接 下 来 的 例子 中 ， 读 者 可 以 将 数据 库 元 素 设 想 图 6-1 日 志 管 理 器 与 事务 管理 器 
为 元 组 ,在 许多 例子 中 甚至 可 以 设想 为 整数 。 但 是 ， 实 践 中 选择 选项 2( 磁 盘 块 或 页 ) 作为 数据 库 
元 素 有 几 个 很 好 的 理由 。 这 样 ， 缓 冲 区 内 容 成 为 单个 元 素 ， 使 我 们 可 以 避 开 一 些 有 关 日 志和 事务 
的 严重 问题 ， 这 些 问题 在 我 们 学 习 不 同 技术 的 过 程 中 会 不 断 发 现 。 避 免 大 于 磁盘 块 的 数据 库 元 
素 还 可 以 避 开 般 溃 发 生 时 元 素 的 一 部 分 已 被 放 到 非 易 失 性 存储 中 的 情况 。 

数据 库 具 有 其 状态 ， 即 对 应 于 其 各 个 元 素 的 取 值 .9 直 觉 地 ， 我 们 认为 某 些 状 态 是 一 致 的 ， 
而 另 一 些 是 不 一 致 的 。 一 致 的 状态 满足 数据 库 模 式 的 所 有 约束 ， 例 如 键 约束 和 值 的 约束 。 但 是 ， 
一 致 的 状态 还 必须 满足 数据 库 设计 者 心目 中 的 隐 式 约束 。 隐 式 约 束 可 能 通过 作为 数据 库 模式 一 
部 分 的 触发 器 来 维护 ， 但 也 可 能 仅仅 通过 有 关 数 据 库 的 策略 说 明 或 用 于 进行 更 新 的 用 户 界面 的 
相关 警告 信息 来 维护 。 

关于 事务 的 一 个 基本 假设 是 : 

。 正确 性 原则 : 如 果 事 务 在 没有 其 他 任何 事务 和 系统 错误 的 情况 下 执行 ， 并 且 在 它 开始 执 

行 时 数据 库 处 于 一 致 的 状态 ， 那 么 当 事 务 结束 时 数据 库 仍然 处 于 一 致 的 状态 。 

正确 性 原则 的 另 一 种 表述 方式 构成 了 这 一 章 所 讨论 的 日 志 技 术 以 及 将 在 第 7 章 讨论 的 并 发 控 
制 机 制 的 动机 。 这 一 表述 方式 包括 两 点 ， 

1. 事务 是 原子 的 ; 即 事务 必须 作为 整体 执行 或 根本 不 执行 。 如 果 仅 有 事务 的 部 分 被 执行 ， 
那么 很 有 可 能 所 产生 的 数据 库 状 态 是 不 一 致 的 。 

2. 事务 的 同时 执行 可 能 导致 状态 的 不 一 致 ， 除 非 我 们 设法 控制 它们 之 间 的 相互 影响 ， 正 如 
我 们 将 在 第 7 章 中 所 做 的 那样 。 





正确 性 原则 可 信和 了 凤 ? 
如 果 数 据 库 事务 可 以 是 在 某 个 终端 上 提交 的 即席 修改 命令 ,而 提交 命令 的 人 并 不 知道 数 
据 库 设计 者 心目 中 隐 式 的 约束 ， 那 么 所 有 事务 都 将 数据 库 从 一 个 一 致 的 状态 转换 到 另 一 个 一 
致 的 状态 这 一 假设 合理 吗 ? 显 式 的 约束 由 数据 库 体 现 ， 所 以 任何 违背 这 些 约束 的 事务 都 会 被 
系统 拒绝 ， 因 而 根本 不 会 政变 数据 库 。 而 对 于 隐 式 的 约束 ， 在 任何 情况 下 都 没 人 能 准确 地 刻 
画 它们 。 我 们 认为 正确 性 原则 合理 的 理由 是 ， 如 果 一 个 人 被 赋予 修改 数据 库 的 权利 ， 那 么 他 
也 有 权 决定 隐 式 的 约束 是 什么 。 








O ”我 们 不 能 混淆 数据 库 状 态 与 事务 状态 ; 后 者 是 事务 局 部 变量 的 取 值 ， 而 不 是 数据 库 元 素 的 取 值 。 
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6.1.4 事务 的 原 语 操作 

我 们 现在 详细 考虑 事务 如 何 同 数据 库 交 互 。 有 3 个 地 址 空间 ,它们 在 重要 的 方面 相互 
影响 : 

1. 保存 数据 库 元 素 的 磁盘 块 空间 。 

2. 缓冲 区 管理 器 所 管理 的 虚 存 或 主 存 地 址 空间 。 

3. 事务 的 局 部 地 址 空间 。 

事务 要 读 取 数 据 库 元 素 ， 该 元 素 首 先 必须 被 取 到 主 存 的 一 个 或 多 个 缓冲 区 中 ， 除 非 它 已 经 
在 那里 了 。 接 下 来 ， 缓 冲 区 中 的 内 容 可 以 被 事务 读 到 其 局 部 地 址 空间 中 。 事 务 为 数据 库 元 素 写 人 
一 个 新 值 的 过 程 与 此 相反 。 事 务 首 先 在 自己 的 局 部 空间 中 创建 新 值 ， 然 后 该 值 被 拷贝 到 适当 的 
缓冲 区 中 。 

缓冲 区 中 的 内 容 可 能 是 也 可 能 不 是 被 立即 拷贝 到 磁盘 ， 这 一 决定 通常 是 缓冲 区 管理 器 
的 任务 。 正 如 我 们 即将 看 到 的 那样 ， 保 证 可 恢复 性 的 基本 工具 之 一 是 强制 缓冲 区 管理 器 在 
适当 的 时 候 将 缓冲 区 中 的 块 写 回 磁盘 。 但 是 ， 为 了 减少 磁盘 LO 次 数 ， 数 据 库 系统 可 以 允 
许 并 且 将 会 允许 更 新 只 存在 于 易 失 性 的 主 存储 器 中 ， 至 少 在 某 些 时 间 段 中 以 及 适当 的 条 件 
组 合 下 。 

为 了 研究 日 志 算法 和 其 他 事务 管理 算法 的 细节 ， 我 们 需要 一 种 记 法 来 描述 所 有 使 数据 在 地 
址 空间 之 间 移 动 的 操作 。 我 们 将 使 用 的 原 语 包括 : 

1. INPUT(X) : 将 包含 数据 库 元 素 工 的 磁盘 块 拷贝 到 主 存 缓冲 区 。 

2. READ(X, t): 将 数据 库 元 素 拷贝 到 事务 的 局 部 变量 ;。 更 准确 地 说 ， 如 果 包 含 数据 库 
TUR 的 块 不 在 主 存 缓冲 区 中 ， 则 首先 执行 INPUT(X) ， 接 着 将 了 的 值 赋 给 局 部 变量 i。 

3. WRITE(X, t): 将 局 部 变量 t 的 值 拷 贝 到 主 存 缓冲 区 中 的 数据 库 元 素 X。 更 准确 地 说 ， 如 
果 包 含 数据 库 元 素 的 块 不 在 主 存 缓冲 区 中 ， 则 首先 执行 INPUT(X) ， 接 着 将 上 的 值 拷贝 到 缓冲 
区 中 的 X。 

4. OUTPUT(X) : 将 包含 式 的 缓冲 区 中 的 块 拷贝 回 磁盘 。 


查询 处 理 中 的 缓冲 区 与 事务 中 的 缓冲 区 
如 果 你 已 经 习惯 于 有 关 查 询 处 理 的 章节 中 对 缓冲 区 使 用 的 分 析 ， 你 或 许 会 发 现在 这 里 我 
们 的 视点 有 所 改变 。 在 第 4 章 和 第 5 章 中 我 们 对 缓冲 区 的 兴趣 点 在 于 在 查询 求 值 中 它们 用 于 
计算 临时 关系 时 。 这 是 缓冲 区 的 一 个 重要 用 途 ， 但 由 于 临时 值 从 不 需要 保存 ， 因 此 这 些 缓冲 
区 的 值 通常 不 记 入 日 志 。 但 是 ， 包 含 从 数据 库 中 检索 出 的 数据 的 缓冲 区 需要 保存 其 中 的 值 ， 
特别 是 当 事 务 更 新 这 些 值 时 。 


只 要 数据 库 元 素 存在 于 单个 磁盘 块 中 (因而 也 就 存在 于 单个 缓冲 区 中 ) ， 上 述 操作 就 是 有 意 
义 的 。 如 果 一 个 数据 库 元 素 占据 多 个 块 ， 我 们 就 把 该 元 素 中 每 个 具有 块 大 小 的 部 分 看 作 一 个 元 
素 。 我 们 将 使 用 的 日 志 机 制 保 证 只 有 在 把 写 X 作 为 原子 的 时 候 事务 才能 完成 ， 即 要 么 X 的 所 有 
块 都 被 写 到 磁盘 上 ， 要 么 都 没有 写 到 磁盘 上 。 因 此 ， 我 们 在 对 日 志 进行 讨论 的 整个 过 程 中 将 
假定 : 

。 数据 库 元 素 的 大 小 不 超过 一 个 块 。 

不 同 的 DBMS 部 件 发 出 我 们 刚才 介绍 的 各 种 命令 。READ 和 WRITE 由 事务 发 出 。INPUT 和 
OUTPUT 通常 由 缓冲 区 管理 器 发 出 ， 尽 管 在 某 些 情况 下 OUTPUT 也 能 由 日 志 管 理 器 发 起 ， 正 如 我 
们 将 看 到 的 那样 。 

例 6.1 为 了 明白 上 述 原 语 操作 如 何 同事 务 所 要 做 的 事情 联系 起 来 ,我们 来 看 具有 两 个 元 素 
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A 和 8 的 数据 库 ， 这 两 个 元 素 要 满足 的 约束 是 在 任何 一 致 的 状态 中 它们 的 值 相 等 。 

事务 7 了 人 逻辑 上 由 下 述 两 步 构 成 ; 

A := A*2; 

B := Bx2; 
如 果 了 从 一 个 一 致 的 状态 ( 即 4 = B) 开始， 在 其 完成 动作 的 过 程 中 没有 其 他 事务 以 及 系统 故障 的 
干扰 ， 那 么 最 终 的 状态 也 必然 是 一 致 的 。 也 就 是 说 ，7 将 两 个 相等 的 元 素 加 倍 ， 得 到 两 个 新 的 、 
相等 的 元 素 。 

T 的 执行 包括 从 磁盘 读 4 和 B， 在 了 的 局 部 地 址 空间 中 执行 算术 运算 ， 以 及 将 4 和 8B 的 新 值 
写 人 其 缓冲 区 中 。 我 们 可 以 将 了 表述 为 6 个 相关 步 又 的 序列 : 


READ(A,t); t := t*2; WRITE(A,t); READ(B,t); t := t*2; WRITE(B,t); 


此 外 ,缓冲 区 管理 器 最 终 将 执行 OUTPUT 步骤 ， 将 这 些 缓冲 区 写 回 磁盘 。 图 6-2 给 出 了 了 的 原 语 
步骤， 其 后 跟随 着 缓冲 区 管理 器 的 两 个 OUTPUT 命令 。 我 们 假设 最 初 4 =B =8。 图 中 给 出 了 每 一 
步 中 4 和 8B 的 内 存 拷 贝 的 值 、 磁 盘 拷 贝 的 值 以 及 事务 7 地 址 空间 中 局 部 变量 i 的 值 。 











动作 
READ(A,t) 
t := t*2 
WRITECA,t) | 
READ(B,t) 
t := t*2 
WRITE(B,t) 
OUTPUT (A) 
OUTPUT (B) 
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图 6-2 ”一 个 事务 的 步骤 及 其 对 主 存 和 磁盘 的 影响 


第 一 步 ,了 7 读 4， 如 果 4 的 块 还 不 在 缓冲 区 中 ， 这 将 导致 缓冲 区 管理 器 产生 INPUT(A) 命令 。 
READ 命令 还 将 4 的 值 拷 贝 到 了 的 地 址 空间 中 的 局 部 变量 i。 第 二 步 将 1 加倍 ， 这 一 步 对 4 没有 任 
何 影响 ， 不 管 是 缓冲 区 中 还 是 磁盘 上 。 第 三 步 将 上 写 到 缓冲 区 的 4 中 ; 它 不 会 影响 磁盘 上 的 A, 
接 下 来 的 3 步 对 如 做 同样 的 事 ， 而 最 后 两 步 将 4 和 B 拷 贝 到 磁盘 。 

不 难 发 现 ， 只 要 所 有 这 些 步 又 都 执行 ， 数 据 库 的 一 致 性 就 能 得 到 保持 。 如 果 在 执行 OUTPUT(4) 
前 发 生 了 系统 故障 ， 那 么 磁盘 上 存储 的 数据 库 不 会 受到 任何 影响 ， 就 仿佛 了 从 未 发 生 ， 而 一 致 性 
得 到 保持 。 但 是 ， 如 果 系 统 故 障 在 OUTPUT(4) 之 后 和 OUTPUT( 8) 之 前 发 生 ， 那 么 数据 库 就 会 
处 于 不 一 致 的 状态 。 我 们 不 能 防止 这 种 情况 的 发 生 ， 但 我 们 可 以 安排 当 这 种 情况 发 生 时 对 问题 
进行 修复 一 一 或 者 4 和 8B 被 重 置 为 8， 或 者 二 者 都 更 新 为 16。 口 


6. 1.5 习题 
习题 6. 1. 1 假设 数据 库 上 的 一 致 性 约束 是 0<4<B。 判 断 以 下 各 事务 是 否 保持 一 致 性 。 
a) B := A+B; A := A+B; 





b) A := B+1; B := A+1; 


c) A := A+B; B := A+B; 





日 ”读者 可 能 会 问 为 什么 我 们 要 自 寻 烦恼 ,使 用 两 个 不 同 的 元 素 而 且 约 束 它们 必须 相等 ， 而 不 是 只 维护 一 个 元 素 ， 
这 是 很 有 道理 的 。 但 是 ， 这 个 简单 的 数量 约束 抓 住 了 很 多 更 加 现实 的 约束 的 核心 ， 例 如 ， 一 次 航班 售 出 的 座位 
数 不 能 超过 飞机 上 的 座位 数 的 10% ， 或 者 银行 贷款 余额 总 和 必须 等 于 该 银行 的 总 债务 。 
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习题 6. 1. 2 ”对 习题 6. 1. 1 中 的 每 个 事务 ， 在 计算 中 加 入 读 写 动作 ， 并 给 出 各 步骤 对 主 存 和 磁盘 产生 的 影 
响 。 假 设 最 初 A =50 H B=25。 此 外 ,请 说 明 当 OUTPUT 动作 顺序 恰当 时 ， 是 否 可 能 即使 在 事务 执行 过 程 
中 发 生 了 故障 ， 一 致 性 仍 能 得 到 保持 。 


6.2 undo 日 志 


日 志 是 日 志 记 录 构 成 的 文件 ， 每 个 日 志 记 录 记 载 有 关 某 个 事务 已 做 的 事 的 某 些 情况 。 如 果 
志 记 录 出 现在 非 易 失 性 的 存储 器 中 ， 那 么 在 系统 崩溃 之 后 ， 我 们 就 可 以 使 用 它们 来 将 数据 库 
恢复 到 一 个 一 致 性 状态 。 我 们 的 第 一 种 日 志 类 型 是 undo 日 志 ， 它 通过 撤销 事务 在 系统 前 省 前 可 
能 还 没有 完成 的 影响 来 修复 数据 库 状 态 。 
另外 ， 在 这 一 节 里 我 们 要 介绍 日 志 记 录 的 基本 思想 ， 包 括 提交 (事务 的 成 功 完成 ) 动作 及 其 
对 数据 库 状 态 和 日 志 的 影响 。 我 们 还 将 考虑 日 志 自身 如 何在 主 存 中 创建 并 被 “刷新 日 志 ” 操 作 找 
贝 到 磁盘 上 。 最 后 ， 我 们 要 具体 地 看 一 看 undo AK, BEM PRN AE. DTE 
免 在 恢复 时 不 得 不 检查 整个 日 志 ， 我 们 引入 “检查 点 ”这 一 想法 ， 它 使 得 我 们 可 以 抛弃 日 志 中 旧 
的 部 分 。 





为 什么 事务 可 能 中 止 ? 
读者 可 能 会 疑 恶 为 什么 事务 会 中 止 而 不 是 提交 。 事 实 上 原因 有 儿 个 。 最 简单 的 是 在 事务 
自身 的 代码 中 有 某 些 错误 情况 ， 例 如 试图 用 零 做 除数 。DBMS 也 可 能 由 于 一 个 或 多 个 原因 需 
要 中 止 事 务 。 例 如 ， 事 务 可 能 陷入 死 锁 中 ,这 时 该 事务 和 其 他 的 一 个 或 多 个 事务 各 自 占有 其 
他 事务 等 待 的 某 个 资源 。 于 是 ， 系 统 必 须 强迫 一 个 或 多 个 事务 中 止 ( 见 8.2 节 )。 














6.2.1 日 志 记 录 

不 妨 将 日 志 看 作 一 个 按 只 允许 附加 的 方式 打开 的 文件 。 当 事务 执行 时 ， 日志 管理 器 负责 在 

志 中 记录 每 个 重要 的 事件 。 每 次 日 志 的 一 个 块 被 填 满 日 志 记 录 ， 每 个 日 志 记 录 对 应 于 这 些 事 
When. Ae 志 块 最 初 在 主 存 中 创建 ， 和 DBMS 所 需 的 其 他 任何 块 一 样 由 缓冲 区 管理 器 分 配 。 
一 有 可 能 ， 日 志 块 就 被 写 到 磁盘 的 非 易 失 性 存储 中 ; 关于 这 个 问题 我 们 在 6. 2. 2 节 中 有 进一步 的 
讨论 。 

这 一 章 我 们 所 讨论 的 各 种 日 志 类 型 用 到 的 日 志 记 录 有 几 种 形式 ， 包括 : 

1. <START T>: 这 一 记录 表示 事务 了 已 开始 。 

2. <COMMIT T>: 事务 了 已 成 功 完 成 并 且 对 数据 库 元 素 不 再 会 有 修改 。7 对 数据 库 所 做 的 
任何 更 新 都 应 反映 到 磁盘 上 。 然 而 ， 由 于 我 们 不 能 控制 缓冲 区 管理 器 何 时 决定 将 块 从 主 存 拷贝 
到 磁盘 ， 当 看 到 < COMMIT T> 日 志 记录 时 ， 我 们 通常 不 能 确定 更 新 已 经 在 磁盘 上 。 如 果 我 们 坚 
持 要 更 新 已 经 在 磁盘 上 ， 那 么 这 一 要 求 必须 由 日 志 管 理 器 来 体现 (正如 undo 日 志 的 情况 那样 ) 。 

3. < ABORT T>: 事务 了 不 能 成 功 完成 。 如 果 事 务 了 了 中止， 它 所 做 的 更 新 都 不 能 被 拷贝 到 磁 
盘 上 ， 并 且 事 务 管理 器 有 责任 保证 这 样 的 更 新 决 不 出 现在 磁盘 上 ， 或 者 如 果 已 经 出 现 就 要 消除 
对 磁盘 的 影响 。 我 们 将 在 8. 1. 1 节 讨 论 消除 中 止 事务 的 影响 这 一 问题 。 

对 undo 日 志 而 言 ， 我 们 唯一 需要 的 其 他 日 志 记 录 类 型 是 更 新 记录 ， 更 新 记录 是 一 个 三 元 组 
< 了 了， ，v > 。 这 一 记录 的 含义 是 ; 事务 了 改变 了 数据 库 元 素 X， 而 下 原来 的 值 是 v。 更 新 记录 所 
反映 的 改变 通常 发 生 在 主 存 中 而 不 是 磁盘 上 ; 即日 志 记 录 是 对 写 人 内 存 的 WRITE 动作 做 出 的 反 
应 ， 而 不 是 对 写 人 磁盘 OUTPUT 动作 做 出 的 反应 。 此 外 还 请 注意 undo 日 志 不 记录 数据 库 元 素 的 
新 值 ， 而 只 记录 旧 值 。 正 如 我 们 将 看 到 的 那样 ， 如 果 在 使 用 undo 日 志 的 系统 中 需要 进行 恢复 时 ， 
恢复 管理 器 要 做 的 唯一 事情 是 通过 恢复 旧 值 消除 事务 可 能 在 磁盘 上 造成 的 影响 。 
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6.2.2 undo 日 志 规则 

只 要 事务 和 缓冲 区 管理 器 遵从 以 下 两 条 规则 ，undo 日 志 就 能 保证 从 系统 故障 中 恢复 。 

U: 如 果 事 务 了 改变 了 数据 库 元 素 邢 ， 那 么 形 如 <7T, X, o> 的 日 志 记 录 必 须 在 不 的 新 值 写 
到 磁盘 之 前 写 到 磁盘 中 。 

U: 如 果 事 务 提交 ， 则 其 COMMIT 日 志 记录 必须 在 事务 改变 的 所 有 数据 库 元 素 先 写 到 磁盘 
之 后 写 到 磁盘 中 ,但 应 尽快 。 








其 他 日 志方 式 预览 
在 “redo 日 志 ”(6.3 节 ) 中 ,恢复 时 我 们 重 做 所 有 有 COMMIT 记录 的 事务 并 忽略 所 有 其 他 
HH, redo 日 志 的 规则 保证 我 们 可 以 忽略 那些 COMMIT 记录 尚未 写 入 磁盘 上 日 志 中 的 事务 。 
“undo/redo 日 志 ”(6.4 节 ) 在 恢复 时 撤销 所 有 未 提交 的 事务 ， 重 做 已 提交 的 事务 。 同 样 ， 关 
于 日 志和 缓冲 区 管理 的 规则 保证 这 些 步骤 能 成 功 地 修复 数据 库 的 任何 损坏 。 


简要 概括 规则 U, 和 U,， 与 一 个 事务 相关 的 内 容 必 须 按 如 下 顺序 写 到 磁盘 ; 

a) 指 明 所 改变 数据 库 元 素 的 日 志 记 录 。 

b) 改 变 的 数据 库 元 素 自身 。 

c) COMMIT 日 志 记 录 。 
然而 ，(a) 和 (b) 的 顺序 是 对 各 个 数据 库 元 素 单独 适用 ， 而 不 是 对 事务 的 更 新 记录 集合 整个 
适用 。 

为 了 强制 将 日 志 记 录 写 到 磁盘 上 ， 日 志 记 录 需 要 一 条 刷新 日 志 命 令 来 告诉 缓冲 区 管理 器 
将 以 前 没有 拷贝 到 磁盘 的 日 志 记录 或 从 上 一 次 拷贝 以 来 已 发 生 修改 的 日 志 记 录 拷 贝 到 磁盘 。 
在 动作 的 序列 中 ， 我 们 将 显 式 地 给 出 FLUSH LOG。 事 务 管理 器 还 需要 以 某 种 方式 告诉 缓冲 区 
管理 器 在 某 个 数据 库 元 素 上 执行 OUTPUT 动作 。 在 事务 步骤 的 序列 中 我 们 将 继续 给 出 OUTPUT 
动作 。 

例 6.2 让 我 们 按照 undo 日 志 来 重新 考虑 例 6. 1 中 的 事务 。 图 6-3 对 图 6-2 进行 了 扩展 ， 以 
给 出 必须 和 事务 了 的 动作 一 起 发 生 的 日 志 项 以 及 刷新 日 志 动 作 。 注 意 ， 我 们 将 “4 在 主 存 缓冲 区 
中 的 拷贝 " 简 记 为 M-4， 将 “8 在 磁盘 上 的 拷贝 ”" 简 记 为 D-B， 依 此 类 推 。 

图 6-3 的 第 1 行 ， 事 务 了 7 了 开始。 发生 的 第 一 件 事 是 < START 了 > 记录 被 写 到 日 志 中 。 第 
2 行 表示 了 读 4。 第 3 行 是 在 本 地 对 上 做 修改 ， 既 不 影响 存储 在 磁盘 上 的 数据 库 ， 也 不 影响 
主 存 缓冲 区 中 数据 库 的 任何 部 分 。 第 2 行 与 第 3 行 都 不 需要 日 志 项 ， 因 为 它们 对 数据 库 没 
有 影响 。 

第 4 行将 4 的 新 值 写 到 缓冲 区 。 对 4 的 这 一 修改 由 日 志 项 <TY，4，8 > 反映 ， 它 表示 4 被 了 
修改 ， 其 改 前 值 为 8。 注 意 ， 新 值 16 在 undo 日 志 中 并 没有 提 到 。 

第 5 行 到 第 7 行 重 复 同样 的 三 个 步 又， 不 过 是 对 B 而 非 对 4。 这 时 ，T 已 经 完成 并 且 必 须 提 
交 。 修 改 后 的 4 和 8 必须 转 到 磁盘 上 ， 但 为 了 遵从 undo 日 志 的 两 条 规则 ， 一 系列 固定 的 事件 必 

首先 ，4 和 如 只 有 在 关于 修改 的 日 志 记录 先 写 到 磁盘 上 后 才能 被 拷贝 到 磁盘 。 因 此 ， 在 第 8 
步 日 志 被 刷新 ， 以 保证 这 些 记 录 出 现在 磁盘 上 。 接 着 ， 第 9 步 和 第 10 步 将 4 和 B 拷贝 到 磁盘 。 
事务 管理 器 为 了 提交 了， 需要 请 求 缓冲 区 管理 器 执行 这 些 步骤 。 

现在 可 以 提交 了 了 了， 于 是 < COMMIT T> 记录 被 写 到 日 志 中 ， 这 就 是 第 11 步 。 最 后 在 第 12 
步 ， 我 们 必须 再 次 刷新 日 志 ， 以 保证 < COMMIT T> 记录 出 现在 磁盘 上 。 注 意 ， 如 果 这 一 记录 
没有 写 到 磁盘 上 ， 我 们 就 可 能 遇 到 这 样 的 情况 ， 即 事务 已 经 提交 ， 但 在 很 长 一 段 时 间 内 查看 
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日 志 我 们 都 看 不 出 它 已 经 提交 。 这 种 情况 可 能 在 崩溃 发 生 时 带 来 一 些 奇怪 的 行为 ， 因 为 正如 我 
们 将 在 6. 2. 3 节 看 到 的 那样 ， 一 个 在 用 户 看 来 早已 完成 的 事务 这 时 将 被 撤销 因而 在 效果 上 等 同 于 
被 中 止 。 l O 





M-B p-a| D-2 | 日 志 
<STARTT> | 








2) | READ(A,t) 
3) | t := t*2 
4) | WRITE(A,t) 
5) | READ(B,t) 
6) | t := tx2 
7) | WRITE(B,t) 
8) | FLUSH LOG 
9) | OUTPUT (A) 
10) | oUTPUT(B) 





8 
8 
8 | <T,A,8> 
8 
8 
8 


oo Go co œ œ œ 


<T, B,8> 


<COMMIT T> 
12) | FLUSH LOG 











图 6-3 动作 及 其 日 志 项 








影响 日 志和 缓冲 区 的 后 台 活 动 

当 我 们 看 到 图 6-3 中 那样 的 一 系列 动作 和 日 志 项 ， 很 容易 将 这 些 动 作 看 作 是 弧 立 发 生 的 。 
然而 ，DBMS 可 能 同时 处 理 多 个 事务 。 因 此 ， 日 志 中 事务 了 的 四 条 日 志 记录 可 能 和 其 他 事务 
的 记录 相互 交错 。 此 外 ， 如 果 这 些 事 务 中 的 一 个 刷新 日 志 ， 那 么 了 的 日 志 记 录 出 现在 磁盘 上 
可 能 比 图 6-3 中 刷新 日 志 记 录 所 示 的 要 早 。 反 了 映 数 据 库 改变 的 日 志 记 录 比 所 需 更 旱地 出 现 并 
没有 坏处 。 对 于 undo 日 志 来 说 最 本 质 的 方针 是 ,我 们 必须 等 到 了 的 OUTPUT 动作 完成 后 才 写 
< COMMIT 7T> 记 录 。 

如 果 4 和 B 共 用 一 个 块 ， 情 况 会 更 束 手 。 这 时 ,将 它们 中 的 一 个 写 到 磁 极 也 就 将 另 一 个 
写 到 磁盘 。 最 坏 的 情况 下 ,我 们 可 能 由 于 将 其 中 的 一 个 元 素 过 旱地 写 到 磁 极 而 违反 规则 U o 
为 了 能 让 undo 日 志 发 挥 作用 ,我们 可 能 有 必要 在 事务 上 采用 一 些 附加 的 约束 。 例如， 我 们 可 
以 将 磁盘 块 作为 数据 库 元 素 ， 使 用 封锁 机 制 ， 像 7.3 节 描 述 的 那样 ， 以 防止 两 个 事务 同时 访 
间 同 一 块 。 数 据 库 元 素 是 块 的 部 分 时 出 现 的 这 一 问题 以 及 其 他 问题 促使 我 们 建议 以 块 作为 数 
据 库 元 素 。 











6.2.3 使 用 undo 日 志 的 恢复 

现在 假设 系统 故障 发 生 了 。 有 可 能 给 定 事务 的 某 些 数据 库 更 新 已 经 写 到 磁盘 上 ， 而 同一 事 
务 的 另 一 些 更 新 尚未 到 达 磁 盘 。 如 果 这 样 ， 事务 的 执行 就 不 是 原子 的 ， 数 据 库 状态 就 可 能 不 一 
致 。 恢 复 管 理 器 必须 使 用 日 志 来 将 数据 库 恢 复 到 某 个 一 致 的 状态 。 

这 一 节 我 们 只 考虑 恢复 管理 器 最 简单 的 形式 ， 这 样 的 恢复 管理 器 不 管 日 志 有 多 长 ， 都 要 查 
看 整个 日 志 ， 作 为 检查 的 结果 它 还 会 对 数据 库 做 一 些 改变 。 在 6. 2. 4 节 我 们 考虑 一 种 更 合乎 情理 
的 方式 ， 其 中 日 志 上 定期 做 “检查 点 ”， 以 限制 恢复 管理 器 必须 回潮 的 历史 长 度 。 

恢复 管理 器 的 第 一 个 任务 是 将 事务 划分 为 已 提交 事务 和 未 提交 事务 。 如 果 有 日 志 记录 

<COMMIT 7> ， 那 么 根据 undo 规则 到 ， 事 务 了 所 做 的 全 部 改变 在 此 之 前 已 写 到 磁盘 上 。 因 此 
当 系 统 故障 发 生 时 ，7 自身 不 可 能 使 数据 库 处 于 不 一 致 的 状态 。 

然而 ， 假 设 我 们 在 日 志 上 发 现 了 < START 7> 记录, 但 未 发 现 < COMMIT 7 > 记录 ,那么 有 
可 能 在 崩溃 前 了 对 数据 库 所 做 的 某 些 修改 已 经 写 到 磁盘 上 ， 而 了 的 另 一 些 修改 在 主 存 缓冲 区 中 都 
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还 没有 进行 ， 或 者 在 缓冲 区 中 进行 了 但 还 未 拷贝 到 磁盘 上 。 在 这 种 情况 下 ，7 是 一 个 未 完成 的 事 
务 因而 必须 被 撤销 。 也 就 是 说 ，7 所 做 的 任何 改变 都 必须 重 置 为 其 原 有 的 值 。 幸 运 的 是 ， 规 则 
U, 保证 如 果 了 在 崩溃 前 改变 了 磁盘 上 的 ,那么 日 志 中 会 有 < T,X，v > 记录， 并且 该 记录 在 骨 
溃 发 生前 已 被 拷贝 到 磁盘 。 因 此 ， 恢 复 时 我 们 必须 为 数据 库 元 素 蕊 写 人 值 v。 注 意 ， 这 一 规则 避 
开 了 XX 在 数据 库 中 值 是 否 为 v 的 问题 ; 我 们 甚至 不 必 检查 。 

由 于 日 志 中 可 能 有 多 个 未 提交 的 事务 ,并且 甚至 可 能 有 多 个 未 提交 的 事务 修改 了 XX， 所 以 我 
们 在 恢复 值 的 顺序 上 必须 是 有 计划 的 。 恢 复 管理 器 必须 从 尾部 开始 扫描 日 志 ( 即 从 最 近 写 的 记录 
到 最 早 写 的 记录 )。 在 扫描 过 程 中 ,恢复 管理 器 记 住所 有 有 < COMMIT T> Bt < ABORT 7 > 记录 的 
事务 T。 同 时 在 其 向 后 扫描 过 程 中 ， 如 果 它 看 见 记录 <T, X, v>, W 

1. 如 果 了 的 COMMIT 记录 已 被 扫描 到 ， 则 什么 也 不 做 。7 已 经 提交 因而 不 需要 撤销 。 

2. 否则 ，7 是 一 个 未 完成 的 事务 或 一 个 中 目的 事务 。 恢 复 管理 器 必须 将 数据 库 中 筷 的 值 改 
为 w， 以 防 万 一 恰好 在 系统 崩溃 前 开 已 经 被 修改 了 。 

在 做 了 这 些 改变 后 ， 恢 复 管理 器 必须 为 以 前 未 中 止 的 且 未 完成 的 每 个 事务 7 了 写 入 一 个 日 志 
记录 < ABORT 了 > ， 然 后 刷新 日 志 。 现 在 ， 数 据 库 的 可 以 恢复 正常 操作 ， 新 的 事务 可 以 开始 
执行 。 

例 6.3 让 我 们 考虑 图 6-3 与 例 6. 2 中 的 动作 序列 。 系 统 可 能 是 在 几 个 不 同 的 时 间 发 生 骨 淡 
的 ; 让 我 们 来 考虑 每 一 个 有 明显 差别 的 时 间 。 

1. 崩溃 在 第 12 步 后 发 生 。 < COMMIT 7 > 记录 在 骨 溃 前 已 到 达 磁 盘 。 当 进行 恢复 时 ， 我 们 
不 撤销 了 的 结果 ， 所 有 与 了 相关 的 日 志 记 录 被 恢复 管理 器 忽略 。 

2. AYR ACHE AE58 11 步 和 第 12 步 之 间 。 包 含 COMMIT 的 日 志 记 录 可 能 已 被 刷新 到 磁盘 ; 例 
如 ， 缓 冲 区 管理 器 可 能 需要 把 包含 日 志 结 尾 的 缓冲 区 提供 给 另 一 事务 ,或 者 另外 的 某 个 事务 已 
请 求 刷新 日 志 。 如 果 这 样 ， 那 么 就 了 而 言 其 恢复 和 情况 1 一样。 但 是 ， 如 果 COMMIT 记录 尚未 到 
达 磁 盘 ， 那 么 恢复 管理 器 认为 了 未 完成 。 当 它 向 后 扫描 日 志 时 ， 首 先 遇 到 记录 <T, B, 8>, F 
是 它 将 8 在 磁盘 上 的 值 存 为 8。 接 着 它 遇 到 记录 <7, 4，8 > ， 并 将 4 在 磁盘 上 的 值 置 为 8。 最 
后 ， 记 录 < ABORT 7 > 被 写 到 日 志 中 和 且 日 志 被 刷新 。 

3. 裔 省 发 生 在 第 10 步 和 第 11 步 之 间 。 现 在 ，COMMIT 记录 肯定 没有 写 人 ， 因 此 7 未 完成 并 
且 会 像 情况 2 中 那样 撤销 。 

4. 船 演 发 生 在 第 8 步 和 第 10 步 之 间 。 于 是 了 也 被 撤销 。 在 这 种 情况 下 ，4 和 /或 B 的 更 新 可 
能 尚未 到 达 磁 盘 。 不 管 怎样 ， 这 些 数据 库 元 素 中 的 每 一 个 都 被 存 为 正确 的 值 8。 

5 崩溃 发 生 在 第 8 步 以 前 。 现 在 ， 关 于 了 的 日 志 记 录 是 否 已 到 达 磁 盘 上 并 不 确定 。 然 而 ， 
根据 规则 U, 我 们 知道 ， 如 果 对 4 和 /或 所 做 更 新 已 到 达 磁 盘 ， 则 相应 的 日 志 记 录 也 已 到 达 
磁盘 。 因 而 如 果 了 在 磁盘 上 改变 了 4 和 /或 了 ， 那 么 相应 的 日 志 志 记录 将 使 局 复 管理 器 撤销 这 些 
改变 。 














Be SE HY 

假设 当 我 们 从 上 一 次 崩溃 中 恢复 时 系统 又 一 次 骨 溃 。 由 二 undo 日 志 记 录 的 设计 方式 ， 所 
给 的 是 旧 人 入 而 不 是 数据 库 元 素 值 的 改变 ， 因 此 恢复 步骤 是 需 等 的 (idempotent) ， 即 将 它们 重复 
多 次 与 执行 一 次 效果 完成 相同 。 我 们 已 经 注意 到 ， 如 果 我 们 发 现 记录 <T， 针 ,vz > , 处 的 值 是 
类 似 地 ， 如 果 我 们 重复 恢复 的 
过 程 ， 那 么 第 一 个 恢复 的 企图 是 否 已 恢复 某 些 旧 值 也 是 无 关 紧 要 的 ; 我 们 只 需 再 次 恢复 它 
们 。 同 样 的 推理 对 本 章 讨 论 的 其 他 日 志方 式 也 成 立 。 由 于 恢复 操作 是 宕 等 的 ， 我 们 再 次 进行 
恢复 时 不 必 考 虑 前 一 次 恢复 所 做 的 更 改 。 
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6.2.4 REA 

正如 我 们 看 到 的 那样 ， 恢 复原 则 上 需要 检查 整个 日 志 。 当 采用 undo 类 型 的 日 志 时 ， 一 旦 事 
务 的 COMMIT 日 志 记 录 被 写 到 磁盘 上 ， 该 事务 的 日 志 记录 在 恢复 时 就 不 再 需要 。 我 们 可 以 设想 
在 COMMIT 前 删除 日 志 ， 但 有 时 却 不 能 。 原 因 在 于 ， 常 常 是 很 多 事务 同时 在 执行 。 如 果 我 们 在 
一 个 事务 提交 后 将 日 志和 截断， 关于 另外 的 某 个 活跃 事务 的 日 志 记 录 就 可 能 丢失 ， 从 而 不 能 在 需 
要 进行 恢复 时 用 来 撤销 7。 

解决 潜在 的 问题 最 简单 的 方法 是 周期 性 地 对 日 志 做 检查 点 。 在 一 个 简单 的 检查 点 中 ， 我 们 
可 以 : 

L 停止 接收 新 的 事务 。 

2. 等 到 所 有 当前 活跃 的 事务 提交 或 中 止 并 目 在 日 志 中 写 和 人 了 COMMIT 或 ABORT 记录 。 

3. 将 日 志 刷 新 到 磁盘 。 

4, 写 人 日 志 记 录 < CKPT > ， 并 再 次 刷新 日 志 。 

5. 重新 开始 接收 事务 。 

所 有 在 检查 点 前 执行 的 事务 将 已 经 完成 ， 并 且 根 据 规则 U, 其 更 新 将 已 经 到 达 磁 盘 。 因 此 ， 
恢复 时 这 些 事务 中 的 任何 一 个 都 不 需要 撤销 。 在 恢复 中 ， 我 们 从 日 志 尾 部 开始 向 后 扫描 ， 确 定 未 
完成 的 事务 ， 就 像 6. 2. 3 节 中 那样 。 然 而 ， 当 我 们 看 到 < CKPT > 记录 时 ， 我 们 知道 我 们 已 经 看 
到 了 所 有 未 完成 的 事务 。 由 于 只 有 在 检查 点 结束 后 事务 才能 开始 ， 我 们 必然 已 经 看 到 了 关于 未 
完成 事务 的 所 有 日 志 记 录 。 因 此 ,没有 必要 扫描 < CKPT > 以 前 的 部 分 ， 并 且 事 实 上 将 该 点 以 前 
的 日 志 删 除 或 覆盖 是 安全 的 。 

例 6.4 假设 日 志 这 样 开始 : 


<START Ti > 
<T,,A,5> 

<START T)> 
<T, B,10> 


XAT, RUTTER TRA. AT, AT, 是 活跃 的 (未 完成 的 ) 事 务 ， 我们 将 不 得 不 等 到 
它们 完成 后 才能 在 日 志 中 写 人 < CKPT > 记录 。 


日 志 后 续 部 分 一 种 可 能 的 情况 如 图 6-4 所 示 。 假 设 这 时 发 生 崩 LT 
演 。 从 尾部 开始 扫描 日 志 ， 我 们 确定 T 是 唯一 的 未 完成 事务 ， 并 且 STi, A,5> 
分 别 将 已 和 正 恢 复 到 其 改 前 值 5 和 30。 当 我 们 到 达 < CKPT > 记录 STB te 
时 ， 我 们 知道 没有 必要 再 检查 以 前 的 日 志 记录 ， 并 且 数 据 库 状态 的 恢 <Tp,C, 15> 

<T1,D, 20> 
复 已 经 完成 。 口 <COMMIT T, > 

<COMMIT 72 > 
6.2.5 非 静 止 检 查 点 <CKPT> 

6. 2. 4 节 所 述 检查 点 技术 的 一 个 问题 是 ， 效 果 上 相当 于 我 们 在 进 ST ES 
行 检查 点 时 必须 关闭 系统 。 由 于 活路 事务 可 能 需要 很 长 时 间 来 提交 <Ts, F,30> 











或 中 止 ， 在 用 户 看 来 系统 似乎 停止 了 。 因 此 ， 一 种 称 为 非 静 止 检查 点 
的 更 复杂 的 技术 通常 更 受 欢迎 ， 它 在 系统 进行 检查 点 时 允许 新 事务 。 图 6-4 一 个 undo 日 志 
进入 。 非 静止 检查 点 的 步骤 包括 : ， 

1. 写 人 日 志 记录 < START CKPT(T,, =, T,) > 并 刷新 日 志 。 其 中 7,，…，7, 是 所 有 活跃 事 
务 ( 即 尚未 提交 和 将 其 修改 写 到 磁盘 的 事务 ) 的 名 字 或 标识 

2. BET, ，…,， T 中 的 所 有 事务 提交 或 中 止 ， 但 允许 其 他 事务 开始 。 

3. 47,, ce, T, 都 已 完成 时 ， 写 人 日 志 记 录 < END CKPT > 并 刷新 日 志 
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最 后 一 条 日 志 记 录 的 发 现 
通常 我 们 会 回收 磁盘 上 日 志文 件 中 的 块 ， 因 为 检查 点 允许 我 们 扔 掉 日 志 中 陈旧 的 部 分 。 
但 是 ， 如 果 我 们 覆盖 上 昌 的 日 志 记 录 ， 那 么 我 们 需要 为 每 条 记录 保存 一 个 只 增 不 减 的 序列 号 ， 
如 下 所 示 : 


4 5 6 7 8 





于 是 ， 我 们 可 以 找到 序列 号 比 下 一 记录 大 的 那 条 记录 ; 二 者 中 人 靠 后 的 记录 将 是 日 志 当 前 的 结 
尾 ， 而 通过 将 当前 记录 按照 它们 现在 的 序列 号 排序 ， 整 个 日 志 就 可 以 被 找到 。 
实践 中 ， 一 个 大 的 日 志 可 能 由 多 个 文件 构成 ， 其 中 有 一 个 “顶层 ”文件 ， 该 文件 的 记录 指 
明 构 成 日 志 的 文件 。 那 么 在 恢复 时 ,我们 找到 顶层 文件 的 最 后 一 条 记录 ,来 到 它 所 表明 的 文 
件 ， 并 在 那里 找到 最 后 一 条 记录 。 
采用 这 种 类 型 的 日 志 ， 我 们 可 以 按照 如 下 所 述 从 系统 故障 中 恢复 。 和 通常 一 样 ， 我 们 从 尾部 


开始 扫描 日 志 ， 在 进行 过 程 中 找到 所 有 未 完成 的 事务 ， 并 将 这 些 事务 所 改变 的 数据 库 元 素 恢复 
为 其 旧 值 。 根 据 在 向 后 扫描 时 我 们 先 遇 到 < END CKPT > 记录 还 是 < START CKPT(7,, =, T,) > 











记录 ,有 两 种 情况 。 
。 如 果 我 们 先 遇 到 < END CKPT > 记录 ， 那 么 我 们 知道 所 有 未 完成 事务 在 前 一 < START 
CKPT(T,, =, 7,) > 记录 后 开始 。 因 此 我 们 可 以 向 后 扫描 直到 下 一 个 START CKPT id 


录 ， 然 后 就 停止 ;以 前 的 日 志 没 有 用 处 ， 因 而 也 是 可 以 抛弃 的 。 
如 果 我 们 先 遇 到 < START CKPT(T,, =, 7,) > 记录， 那么 崩溃 发 生 在 检查 点 过 程 中 。 但 
是 ,未 完成 的 事务 只 有 在 向 后 扫描 过 程 中 到 达 START CKPT 前 遇 到 的 那些 以 及 了 ，…， 
T, 中 在 发 生 崩 溃 前 还 没有 完成 的 那些 。 因 此 ， 我们 扫描 到 这 些 未 完成 事务 中 最 早 的 那个 
事务 的 开始 就 不 必 再 继续 向 后 扫描 。 前 一 个 START CKPT 记录 当然 比 这 些 事务 的 开始 都 
早 ， 但 通常 我 们 发 现 这 些 未 完成 事务 的 开始 比 到 达 上 一 检查 点 要 早 得 多 。 此 外 ， 如 果 我 
们 用 指针 将 属于 同一 事务 的 日 志 记 录 链 在 一 起 ， 那 么 我 们 不 需要 搜索 整个 日 志 来 找到 属 
于 活跃 事务 的 记录 ; 我 们 只 需要 沿 着 它们 的 链 向 后 查看 日 志 。 

一 个 通常 的 规律 是 ,一旦 < END CKPT > 记录 写 到 了 磁盘 ， 我 们 就 可 以 将 上 一 个 START 
CKPT 记录 前 的 日 志 删 除 。 

例 6.5 假设 和 例 6.4 中 一 样 ， 日 志 开始 是 : 


<START 了 1 > 
<T, A,5> 

<START T2> 
<T, B,10> 


现在 ， 我们 决定 做 一 个 非 静 止 检查 点 。 由 于 7, AT, 在 这 时 是 活跃 的 (未 完成 的 ) 事 务 ， 我 们 
写 人 日 志 记 录 

<START CKPT (Ti, 72)> 

假设 在 等 待 T, ALT, 完成 时 ， 另 一 个 事务 T, 开始 了 。 日 志 后 续 部 分 一 种 可 能 的 情况 如 图 6-5 
所 示 。 





全 ”但 请 注意 ， 由 于 检查 点 是 非 静止 的 ， 未 完成 事务 中 可 能 有 事务 在 上 一 检查 点 开始 和 结束 之 间 开 始 。 
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(RBIS AE T ASA. WBBM A, RINT, 是 未 完成 的 事务 因而 必须 被 
撤销 。 最 后 一 条 日 志 记 录 人 告诉 我 们 将 数据 库 元 素 恢复 为 值 30。 当 我 们 发 现 <END CKPT > ic 
录 ， 我们 知道 所 有 未 完成 事务 在 前 一 个 START CKPT 后 开始 。 进 一 步 向 后 扫描 ， 我 们 发 现 记 录 

< 了 T，E，25 > ， 它 告诉 我 们 将 恢复 为 值 25。 在 该 记录 与 START CKPT 之 间 没 有 其 他 已 开始 但 
尚未 提交 的 事务 ， 所 以 对 数据 库 不 再 做 进 一 步 的 改变 。 














<START TI > 

<Ti, A,5> 

<START 722 > . a 
<T, B, 10> <START Ti > 

<START CKPT (T,T2)> <T,,A,5> 

<To,C,15> <START 72> 

<START T; > <T, B, 10> 

<T, D, 20> <START CKPT (T1, T2)> 
<COMMIT T > <T, C,15> 

<T;, E, 25> <START 73> 

<COMMIT T2> : <T,, D,20> 

<END CKPT> <COMMIT T,> 

<T3, F, 30> <T3, E, 25> 














图 6-5 ”一 个 使 用 非 静 止 检 查 点 的 undo 日 志 图 6-6 ”检查 点 过 程 中 发 生 系统 骨 省 时 的 undo 日 志 
现在 假设 剧 溃 发 生 在 检查 点 过 程 中 ， 骨 省 后 日 志 的 结尾 如 图 6-6 所 示 。 疝 后 扫描 , 我 们 先 确 
定 然后 又 确定 TT 是 未 完成 事务 并 撤销 它们 所 做 的 修改 。 当 我 们 发 现 <START CKPT (7,, T,) > 
记录 时 ， 我们 知道 其 他 可 能 未 完成 的 事务 只 有 Ti。 但 是 ,我 们 已 经 扫描 到 了 < COMMIT T, > 记 
录 ， 所 以 我 们 知道 T, 不 是 未 完成 的 。 我 们 也 已 经 看 到 了 <STARTT, > 记录。 因此， 我 们 只 需要 
继续 向 后 扫描 到 过 到 7, 的 START 记录 ， 并 在 此 过 程 中 将 数据 库 元 素 B 恢复 为 值 10。 口 


6.2.6 习题 

习题 6. 2. 1 ”对 每 一 个 表示 事务 7 动作 的 日 志 记录 系列 ， 说 明 所 有 合乎 undo 日 志 规 则 的 事件 系列 ， 其 中 我 
们 关心 的 事件 是 将 包含 数据 库 元 素 的 块 以 及 包含 更 新 和 提交 记录 的 日 志 块 写 到 磁盘 。 你 可 以 假定 日 志 记 
录 按 所 示 顺 序 写 磁盘 ， 即 不 可 能 在 前 一 记录 还 没有 写 到 磁盘 时 将 下 一 记录 写 到 磁盘 。 
a) <START T>; <T, A,10>; <T, B,20>; <COMMIT T>. 


b) <START T>; <T, A, 10>; <T, B,20>; <T,C,30><COMMIT T>, 


! 习题 6.2.2 JÆ 6.2.1 引信 的 模式 可 以 扩展 到 事务 为 二 个 数据 库 元 素 写 人 新 值 的 情况 。 如 果 遵 从 undo 日 
志 规 则 ， 这 样 的 一 个 事务 有 多 少 合法 的 事件 系列 ? 

习题 6. 2. 3 下 面 是 两 个 事务 了 和 了 的 一 系列 日 志 记 录 : <START U>; <T, A, 10>; <STARTT>; < 
T, B, 20>; <U, C, 30>; <T, D, 40>; <COMMITT>; <U, E, 50>; <COMMIT U > 。 请 描述 
恢复 管理 器 的 行为 ， 包 括 对 磁盘 和 日 志 所 做 的 改变 ， 假 设 故 障 发 生 且 出 现在 磁盘 上 的 最 后 一 条 日 志 记 
RA: 
a) <START T> b) <COMMIT T> c) <U, E, 50> d) <COMMIT U > 

习题 6. 2.4 对 于 习题 6. 2. 3 描述 的 每 种 情况 ，T 和 U 所 写 的 哪些 值 必然 出 现在 磁盘 上 ”哪些 值 可 能 出 现在 
磁盘 上 ? 

! 习题 6. 2.5 假设 改变 习题 6. 2. 3 中 的 事务 U, <U, D, 40> 记录 变 为 < 已 ，4， 40>。 如 果 在 事件 系列 
中 的 某 个 时 刻 发 生 故 障 ， 对 4 在 磁盘 上 的 值 有 什么 影响 ? 这 个 例子 对 undo 日 志 自 身 在 保持 事务 原子 性 能 
力 方面 说 明了 什么 ? 

习题 6.2.6 给 出 习题 6. 1. 1 中 各 个 事务 (将 每 一 个 都 称 为 7) 的 undo Aik, 假设 最 初 4=50 H B=25。 
习题 6. 2.7 考虑 如 下 日 志 记 录 序 列 ; <STARTS>; <S, A, 60>; <COMMITS>; <START T>; <T, 
A, 10>; <STARTU>; <U, B, 20>; <T, C, 30>; <STARTV>; <U, D, 40>; <V,F,70>; 
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<COMMIT U>; <T, E, 50>; <COMMIT T>; <V, B, 80>; <COMMIT V>, 假设 我 们 在 如 下 日 志 
记录 中 的 某 一 条 写 入 ( 主 存 ) 后 立即 开始 一 个 非 静 止 检 查 点 : 

a) <S, A, 60> 

b) <T, A, 10> 

c) <U, B, 20> 

d) <U, D, 40> 

e) <T, E, 50> 

对 其 中 的 每 一 个 ， 说 明 : 

i 何 时 写 人 <END CKPT > 记录 。 

i 对 于 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 志 中 回溯 多 远 。 


6.3 redo 日 志 


undo 日 志 有 一 个 潜在 的 问题 ， 即 我 们 在 将 事务 改变 的 所 有 数据 写 到 磁盘 前 不 能 提交 该 事务 。 
有 时 ， 如 果 让 数据 库 修改 暂时 只 存在 于 主 存 中 ， 我 们 可 以 节省 磁盘 YO; 只 要 在 崩溃 发 生 时 有 日 
志 可 以 用 来 修复 ， 这 样 做 是 安全 的 。 

如 果 我 们 使 用 一 种 称 为 redo 日 志 的 日 志 机 制 ， 立 即将 数据 库 元 素 备份 到 磁盘 的 需要 就 可 以 
被 避免 。redo 日 志和 undo 日 志 的 主要 区 别 是 : 

1. undo 日 志 在 恢复 时 消除 未 完成 事务 的 影响 并 忽略 已 提交 事务 ， 而 redo 日 志 忽 略 未 完成 的 
事务 并 重复 已 提交 事务 所 做 的 改变 。 

2. undo 日 志 要 求 我 们 在 COMMIT 日 志 记 录 到 达 磁 盘 前 将 修改 后 的 数据 库 元 素 写 到 磁盘 ， 而 
redo 日 志 要 求 COMMIT 记录 在 任何 修改 后 的 值 到 达 磁 盘 前 出 现在 磁盘 上 。 

3. 当 遵 循 undo 规则 U, MU, 时 ， 在 恢复 时 我 们 需要 的 是 发 生 改 变 的 数据 库 元 素 的 旧 值 ， 而 
使 用 redo 日 志 恢 复 时 ， 我 们 需要 的 是 新 值 。 
6.3.1 redo 日 志 规则 

在 redo 日 志 中 , 日 志 记录 <T,，X,v> 的 含义 是 “事务 7 为 数据 库 元 素 X 写 人 新 值 w”。 在 这 
个 记录 中 没有 指出 的 旧 值 。 每 当 一 个 事务 了 修改 一 个 数据 库 元 素 逆 时， 必须 往日 志 中 写 人 一 
RGM <T, X, o> 的 记录 。 

对 于 redo 日 志 ， 数 据 和 日 志 项 到 达 磁 盘 的 顺序 可 以 用 一 条 “redo 规则 ”描述 ， 这 条 规则 称 为 
先 写 日 志 规 则 。 

R: 在 修改 磁盘 上 的 任何 数据 库 元 素 X 以前， 要 保证 与 的 这 一 修改 相关 的 所 有 的 日 志 记 
录 ， 包 括 更 新 记录 <7T,，X，v> 及 < COMMIT 了 > 记录 ， 都 必须 出 现在 磁盘 上 。 

事务 的 COMMIT 记录 只 有 在 事务 完成 后 才能 写 人 日 志 ， 因 而 提交 记录 必然 在 所 有 更 新 日 志 
记录 后 ， 所 以 当 使 用 redo 日 志 时 ， 与 一 个 事务 相关 的 材料 写 到 磁盘 的 顺序 为 ; 

1. 指出 被 修改 元 素 的 日 志 记录 。 

2. COMMIT 日 志 记 录 。 

3. 改变 的 数据 库 元 素 自身 。 

例 6. 6 ”让 我 们 考虑 与 例 6. 2 中 相同 的 事务 7。 图 6-7 给 出 了 该 事务 一 个 可 能 的 事件 系列 。 

图 6-7 与 图 6-3 的 主要 区 别 如 下 。 首 先 ， 我 们 注意 到 在 图 6-7 的 第 4 行 和 第 7 行 ， 反 映 修改 
的 日 志 记录 具有 4 和 B 的 新 值 ， 而 不 是 旧 值 。 其 次 ， 我 们 看 到 < COMMIT 7 > 记录 出 现 较 早 ， 在 
第 8 步 。 然 后 日 志 被 刷新 ， 因 此 所 有 与 事务 7 了 的 更 新 相关 的 日 志 记 录 出 现在 磁盘 上 。 只 有 等 到 这 
时 4 AB 的 新 值 才能 写 到 磁盘 。 我 们 紧 接 着 在 第 10 和 11 步 就 写 出 了 这 些 值 ， 而 实际 中 它们 的 发 
生 可 能 比 这 要 晚 。 口 
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READ(A,t) 
t := t*2 
WRITE(A,t) 
READ(B,t) 
t := t*2 

WRITE(B,t) 


<T, A, 16> 


<T, B, 16> 

<COMMIT T> 
FLUSH LOG 
DUTPUT (A) 
OUTPUT (B) 


图 6-7 动作 及 其 在 使 用 redo 日 志 时 的 日 志 项 








6.3.2 使 用 redo 日 志 的 恢复 

redo 规则 R, 的 一 个 重要 的 推论 是 ， 只 要 日 志 中 没有 < COMMIT 了 > 记录 ， 我 们 就 知道 事务 T 
对 数据 库 所 做 的 更 新 都 没有 写 到 磁盘 上 。 因 此 ， 恢 复 时 对 未 完成 事务 的 处 理 就 可 以 像 它们 从 未 
发 生 过 似 的 。 然 而 , 已 提交 的 事务 存在 问题 ， 因 为 我 们 不 知道 它们 的 哪些 数据 库 改 变 已 经 写 到 磁 
盘 。 幸 运 的 是 ，redo 日 志 正好 有 我 们 需要 的 信息 : 新 值 。 我 们 可 以 将 新 值 写 到 磁盘 而 不 管 它 们 是 
否 已 经 在 磁盘 上 。 在 系统 骨 演 后 要 使 用 redo 日 志 恢 复 ， 我 们 需要 做 以 下 事情 

1. 确定 已 提交 的 事务 。 

2. 从 首部 开始 扫描 日 志 。 对 过 到 的 每 一 <T， X, v> 记录: 

a) 如 果 了 是 未 提交 的 事务 ， 则 什么 也 不 做 。 

b) 如 果 了 是 提交 的 事务 ， 则 为 数据 库 元 素 马 写 人 值 w。 

3. 对 每 个 未 完成 的 事务 ?7， 在 日 志 中 写 人 一 个 <ABORT T> 记录 并 刷新 日 志 。 

例 6.7 让 我 们 考虑 图 6-7 中 的 日 志 ， 看 一 看 在 动作 序列 的 不 同步 又 之 后 发 生 故 障 时 恢复 如 
何 进行 。 

1. 如 果 故 障 发 生 在 第 9 步 后 的 任何 时 候 ， 那 么 < COMMIT T> 记录 已 被 刷新 到 磁盘 。 恢 复 系 
统 认 定 了 是 一 个 提交 的 事务 。 当 向 前 扫描 日 志 时 ， 日 志 记录 <T, A, 16>#<T, B, 16> 使 恢 
复 管 理 器 为 4 和 B 写 入 值 16。 请 注意 ， 如 果 故 障 发 生 在 第 10 和 第 11 步 之 间 ， 那 么 写 4 是 多 余 
的 ， 而 写 B 还 未 发 生 ， 因 而 将 B 改变 为 16 是 恢复 数据 库 的 一 致 状态 所 必需 的 。 如 果 故 障 发 生 在 
第 11 步 以 后 ,那么 写 4 和 写 B 都 是 多 余 的 但 也 是 无 害 的 。 

2. 如 果 故 障 发 生 在 第 8 和 第 9 步 之 间 ， 那 么 尽管 < COMMIT 7 > 记录 写 入 了 日 志 ; 但 可 能 还 
没有 到 达 磁 盘 ( 依 赖 于 日 志 是 否 因 其 他 某 种 原因 而 刷新 ) 。 如 果 该 记录 已 到 达 磁 盘 ， 则 恢复 如 情 
况 1 那样 进行 ， 而 如 果 该 记录 没 能 到 达 磁 盘 ， 那 么 恢复 和 下 面 的 情况 3 一 样 。 

3. 如 果 故 障 发 生 在 第 8 步 以 前 ， 那 么 < COMMIT T> 记录 肯定 没有 到 达 磁 盘 。 因 此 ， 了 被 看 
作 一 个 未 完成 的 事务 。 磁 盘 上 的 4 和 8B 不 为 7 做 任何 改变 ， 而 最 后 一 条 < ABORT 了 > 记录 被 写 到 
日 志 中 。 口 
6.3.3 redo 日 志 的 检查 点 

对 于 redo 日 志 的 检查 点 ， 这 儿 有 一 个 undo 日 志 中 所 没有 的 问题 。 由 于 已 提交 事务 所 做 的 数 
据 库 修改 拷贝 到 磁盘 的 时 间 可 能 比 事务 提交 的 时 间 晚 得 多 ， 因 此 我 们 不 能 仅仅 考虑 在 我 们 决定 
创建 检查 点 时 活跃 的 事务 。 不 管 检查 点 是 静止 的 还 是 非 静 止 的， 在 检查 点 的 开始 和 结束 之 间 我 
们 必须 将 已 被 提交 事务 修改 的 所 有 数据 库 元 素 写 到 磁盘 。 要 做 到 这 样 ， 需 要 缓冲 区 管理 器 明了 
哪些 缓冲 区 是 脏 的 ， 即 它们 已 经 被 修改 但 还 没有 写 到 磁盘 。 还 需要 知道 哪些 事务 修改 了 哪些 组 
冲 区 。 
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男 一 方面 ,我们 不 需要 等 待 活跃 事务 提交 或 中 止 就 能 完成 检查 点 ， 因 为 它们 无 论 如 何 都 不 
被 允许 在 那个 时 候 将 它们 的 页 写 到 磁盘 。 进 行 redo 日 志 的 非 静 止 检 查 点 步 又 如 下 : 

1. 写 人 日 志 记 录 < START CKPT(7,, --, T,) >, HP T, =, T, 是 所 有 活跃 ( 即 未 提交 
的 ) 事 务 ， 并 刷新 日 志 。 

2. 将 START CKPT 记录 写 人 日 志 时 所 有 已 提交 事务 已 经 写 到 缓冲 区 但 还 没有 写 到 磁盘 的 数 
据 库 元 素 写 到 磁盘 。 

3. 写 人 日 志 记 录 < END CKPT > 并 刷新 日 志 。 








例 6.8 图 6-8 给 出 了 一 个 可 能 的 redo 日志， 其 中 发 生 了 一 个 <START Ti > 
检查 点 。 当 我 们 开始 检查 点 时 ， 只 有 T, 是 活跃 的， 但 7, 所 写 的 4 Mas 
值 可 能 已 经 到 达 和 磁盘。 如果 没有 ， 那 么 我们 必须 在 检查 点 结束 前 <COMMIT T, > 
将 4 拷贝 到 磁盘 。 我 们 表明 检查 点 的 结束 在 几 个 其 他 的 事件 后 发 Sen CRT (n> 
E: T, JARENE C 写 人 一 个 值 ， 一 个 新 事务 T, 开始 并 为 D E <I, 0, 15> 
和 人 一 个 值 。 在 检查 点 结束 后 发 生 的 唯一 的 事情 是 7, A T, 提交 。 口 ST D 
6.3.4 ”使 用 带 检查 点 redo 日 志 的 恢复 se 
正如 undo 日 志 那 样 ， 插 人 表明 检查 点 开始 和 结束 的 记录 可 以 <COMMIT T3> 








帮助 我 们 缩小 在 需要 恢复 时 检查 日 志 的 范围 。 根 据 最 后 一 个 检查 图 68 Ard 日 志 
点 记录 是 START 还 是 END, ， 有 两 种 不 同 的 情况 ， 这 也 和 undo 日 志 
一 样 。 

首先 假设 在 崩溃 发 生前 日 志 中 的 最 后 一 条 检查 点 记录 是 < END CKPT > 。 现 在 ， 我 们 知道 在 
对 应 的 <START CKPT (7 =, T,) > 前 提交 的 事务 已 经 将 其 修改 写 到 了 磁盘 ， 因 此 我 们 不 必 关 
心 如 何 恢复 这 些 事务 的 影响 。 但 是 ，7, 中 的 任 一 事务 或 检查 点 开始 后 启动 的 任 一 事务 即使 已 经 
提交 ， 都 仍 可 能 未 将 其 所 做 修改 转 到 磁盘 上 。 因 此 ， 我 们 必须 像 6. 3. 2 节 描述 的 那样 进行 恢复 ， 
但 可 以 只 关心 最 后 一 个 START CKPT(T,, =, TO 中 提 到 的 事务 T, 与 该 日 志 记录 在 日 志 中 出 现 后 
开始 的 事务 。 在 搜索 日 志 时 ， 我 们 在 找到 最 早 的 < START T, > 记录 后 就 不 必 继 续 向 后 看 。 但 请 注 
意 ， 这 些 START 记录 可 能 出 现在 任意 多 个 检查 点 前 。 将 一 个 事务 的 所 有 日 志 记录 向 后 链接 在 一 
起 可 以 帮助 我 们 找到 所 需 记 录 ， 正 如 undo 日 志 中 那样 。 

现在 ， 假 设 日 志 中 的 最 后 一 条 检查 点 记录 是 


<START CKPT (Ti,... ,Th)> 


我 们 不 能 确定 在 此 检查 点 开始 前 提交 的 事务 是 否 已 经 将 其 修改 写 到 磁盘 上 。 因 此 ， 我 们 必须 搜 
索 到 前 一 <END CKPT > 记录， 找到 与 之 匹配 的 < START CKPT(S,, =, S_) > 记录 ,Se 并 重 做 这 
些 已 经 提交 的 事务 ， 这 些 事 务 要 人 么 在 START CKPT 后 开始 要 么 在 5, 中 。 

例 6.9 重新 考虑 图 6-8 中 的 日 志 。 如 果 故 障 在 尾部 发 生 ， 我 们 向 后 搜索 ， 找 到 < END 
CKPT > 记录 。 我 们 只 需 知道 将 所 有 在 写 记 录 < START CKPT (T,) > 后 开始 的 事务 以 及 出 现在 该 
记录 的 列表 中 的 事务 ( 即 T ) 作 为 重 做 的 候选 者 。 因 此 ， 我 们 的 候选 集合 是 1 了 ， 甩 } 。 我 们 找到 
了 记录 < COMMIT T, > 和 < COMMIT 7, > ， 于 是 我 们 知道 它们 都 必须 重 做 。 我 们 向 后 搜索 日 志 直 
到 < START T, > 记录， 为 提交 的 事务 找到 更 新 记录 <T,, B, 10>, <T,, C, 15>% <T, D, 
20 > 。 由 于 我 们 不 知道 这 些 改变 是 否 已 到 达 磁 盘 ， 我 们 分 别 为 B、C 和 DD 重新 写 和 人 值 10、15 


o 一 个 小 的 技术 细节 是 ， 由 于 上 次 的 故障 ， 有 的 START CKPT 记录 可 能 没有 匹配 的 <END CKPT > 。 这 就 是 我 们 为 
什么 不 能 只 找 前 一 START CKPT 记录 ， 而 要 先 找 < END CKPT > 然后 找 前 一 START CKPT 的 原因 。 
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和 20。 

现在 ,假设 崩溃 在 记录 < COMMIT T, > 和 < COMMIT T, > 之 间 发 生 。 恢 复 与 上 述 过 程 类 似 ， 
只 不 过 7 不 再 是 已 提交 的 事务 。 因 此 ， 其 修改 <7 D, 20> 不 能 被 重 做 ， 并 且 在 恢复 中 不 对 亡 
做 任何 改变 ， 尽 管 此 日 志 记 录 处 于 被 检查 的 记录 范围 内 。 恢 复 后 我 们 也 要 在 日 志 中 写 人 一 条 
< ABORT T, > 记录 。 

最 后 ,假设 崩溃 正好 在 <END CKPT > 记录 前 发 生 。 原 则 上 ， 我 们 必须 向 后 搜索 到 倒数 第 二 
Ñ START CKPT 记录 并 得 到 其 活跃 事务 列表 。 但是， 这 种 情况 下 没有 前 一 检查 点 ， 因 而 我 们 必须 
一 直 走 到 日 志 的 开头 。 因 此 ， 我 们 确定 已 提交 的 事务 只 有 7 ， 重 做 其 动作 < 7,，A,，5 > ， 并 在 
恢复 后 将 记录 < ABORT T, > 和 <ABORT T, > 写 人 日 志 中 。 g 

由 于 事务 可 能 在 几 个 检查 点 都 活跃 ， 因 此 在 <START CKPT(T,, =, T,) > 记录 中 不 仅 包 括 
事务 的 名 字 ， 并 且 包 括 指 向 事务 在 日 志 中 开始 的 地 方 的 指针 ， 这 样 做 会 比较 方便 。 这 样 做 ， 我 们 
就 知道 什么 时 候 删 除 日 志 中 较 早 的 部 分 是 安全 的 。 当 我 们 写 人 < END CKPT > 记录 时 ， 我们 就 会 
知道 我 们 不 再 需要 向 后 查看 到 比 所 有 活跃 事务 T, 中 最 早 的 < START T > 记录 更 早 的 日 志 记 录 。 
因此 ， 早 于 该 START 记录 的 所 有 记录 都 可 以 被 删除 。 


63.5 习题 

习题 6.3.1 给 出 习题 6. 1. 1 中 各 个 事务 (每 个 事务 都 称 为 7) 的 redo 日 志 记录 ,假设 最 初 4=50 并 且 
B=25, 

习题 6. 3.2 ”使 用 习题 6. 2. 7 的 数据 ， 对 该 习题 中 (a) 到 (e) 的 各 个 位 置 ， 回 答 : 
i (ET BESSA < CKPT > 记录 。 
让 对 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 志 中 向 后 看 多 远 。 请 

考虑 <END CKPT > 记录 在 月 省 发 生 以 前 写 人 和 未 写 人 的 两 种 情况 。 

习题 6. 3. 3 {EJM redo 日 志 ， 重 复习 题 6. 2. 1。 

习题 6. 3.4 使 用 redo Hk, 重复 习题 6. 2. 3。 

习题 6. 3.5 使 用 redo 日 志 ， 重 复习 题 6. 2.4。 


6.4 undo/redo 日 志 


我 们 已 经 看 到 了 两 种 不 同 的 日 志方 式 ， 它 们 的 差别 在 于 当 数 据 库 元 素 被 修改 时 日 志 中 保存 
旧 值 还 是 新 值 。 它 们 各 有 其 缺陷 : 
© undo 日 志 要 求 数据 在 事务 结束 后 立即 写 到 磁盘 ， 可 能 增加 需要 进行 的 磁盘 IO 数 。 
© AFH, redo 日 志 要 求 我 们 在 事务 提交 和 日 志 记 录 刷 新 以 前 ， 将 所 有 修改 过 的 块 保留 
在 缓冲 区 中 ， 这 样 可 能 增加 事务 需要 的 平均 缓冲 区 数 。 
。 如果 数据 库 元 素 不 是 完整 的 块 或 块 集 ， 在 检查 点 过 程 中 undo 日 志和 redo 日 志 在 如 何 处 
理 缓 冲 区 方面 都 存在 矛盾 。 例 如 ， 如 果 一 个 缓冲 区 中 包含 被 提交 的 事务 修改 过 的 数据 
库 元 素 4 和 同一 缓冲 区 中 被 尚未 将 其 COMMIT 记录 写 到 磁盘 的 事务 修改 过 的 数据 库 元 
素 B， 那 么 由 于 4 我 们 需要 将 缓冲 区 拷贝 到 磁盘 ,但 将 规则 R, 运用 到 B， 又 不 能 这 
样 做 。 
我 们 现在 要 看 一 种 称 为 undo/redo 日 志 的 日 志 类 型 ， 这 一 日 志 类 型 通过 在 日 志 中 维护 更 多 信 
息 的 方式 (这 是 一 种 代价 ) ， 提 供 了 动作 顺序 上 的 更 大 灵活 性 。 


6.4.1 undo/redo 规则 


undo/redo 日 志 与 其 他 日 志 类 型 有 同样 种 类 的 日 志 记录 ， 呈 有 一 个 例外 。 当 数据 库 元 素 修改 
其 值 时 我 们 写 人 的 更 新 日 志 记录 有 4 个 成 分 。 记 录 < 了 , X, v, w> 的 含义 是 ， 事 务 了 改变 了 数 
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据 库 元 素 工 的 值 ; 其 改 前 值 为 w， 新 值 为 wm。undovredo 日 志 系统 必须 遵从 的 约束 可 用 如 下 规则 
概括 : 

UR: 在 由 于 某 个 事务 了 所 做 改变 而 修改 磁盘 上 的 数据 库 元 素 工 前 ， 更 新 记录 <T, X, v, w> 
必须 出 现在 磁盘 上 。 

于 是 undo/redo 日 志 的 规则 UR, 只 实施 undo 日 志和 redo 日 志 都 有 的 约束 。 具 体 地 说 ， 
<COMMIT 了 > 日 志 记 录 可 以 在 磁盘 上 任何 数据 库 元 素 的 修改 之 前 或 之 后 。 

例 6. 10 图 6-9 是 我 们 最 后 在 例 6. 6 中 看 到 的 事务 了 的 一 个 变 体 ， 其 中 与 事务 相关 的 动作 顺 
序 发 生 了 变化 。 请 注意 ， 更 新 日 志 记录 中 现在 同时 包括 4 和 8B 的 旧 值 和 新 值 。 在 这 个 序列 中 ， 
我 们 在 将 数据 库 元 素 4 和 8B 输出 到 磁盘 之 间 写 人 日 志 记 录 <COMMITT > 。 第 10 步 也 可 以 出 现在 











第 8 或 第 9 步 之 前 ， 或 第 11 步 之 后 。 o 
D-B | Aim 

<START T> 

2) | READ(A,t) 8 8 8 8 

3) | t := t*2 16 8 8 8 

4) | WRITE(A,t) | 16 16 8 8 | <T, A,8, 16> 

5) | READ(B,t) | 8| 16 8 8 8 

6) | t := t*2 16 16 8 8 8 

7) | WRITE(B,t) | 16 16 16 8 8 | <T, B,8, 16> 

8) | FLUSH LOG 

9) | QUTPUT(A) 16 16 16 16 8 











10) “<COMMIT T> 
11) | OUTPUT(B) | 16 16 16 16 16 


图 6-9 动作 及 使 用 undo/redo 日 志 的 日 志 项 的 一 个 可 能 序列 

















6.4.2 使 用 undo/redo 日 志 的 恢复 

当 我 们 需要 用 undo/redo 日 志 恢复 时 ， 我 们 拥有 的 信息 既 允 许 我 们 通过 恢复 事务 7 所 改变 数 
据 库 元 素 的 旧 值 来 撤销 事务 7， 也 人 允许 我 们 通过 重复 了 所 做 的 改变 来 重 做 T。undo/redo 日 志 恢复 
策略 是 : 

1. 按照 从 前 往 后 做 顺序 ， 重 做 所 有 已 提交 的 事务 。 

2. 按照 从 后 往 前 做 顺序 ， 撤 销 所 有 未 提交 的 事务 。 

请 注意 这 两 件 事 都 做 对 我 们 来 说 是 必要 的 。 由 于 undo/redo 日 志 在 COMMIT 日 志 记录 与 数据 
库 修 改 本 身 拷 贝 到 磁盘 的 相对 顺序 方面 提供 的 灵活 性 ， 我 们 既 可 以 让 一 个 已 提交 事务 的 部 分 或 
全 部 修改 不 在 磁盘 上 ， 也 可 以 让 一 个 未 提交 事务 的 部 分 或 全 部 修改 在 磁盘 上 。 

例 6.11 考虑 图 6-9 中 的 动作 序列 。 下 面 是 假设 崩溃 发 生 在 序列 中 不 同 的 点 时 进行 恢复 的 
不 同方 式 。 

1. 假设 前 溃 发 生 在 < COMMIT T> 记录 刷新 到 磁盘 后 。 这 时 了 被 认为 是 已 提交 的 事务 。 我 们 
为 4 和 B 往 磁盘 上 写 人 值 16。 由 于 事件 实际 的 顺序 ，4 已 经 具有 值 16, 而 B 可 能 没有 ， 这 决定 
FARA ES 11 步 之 前 还 是 之 后 。 

2. WRAAE < COMMIT 7 > 记录 到 达 磁 盘 前 发 生 ， 则 了 被 作为 未 完成 的 事务 。4 和 B 原来 
的 值 被 写 到 磁盘 ， 两 种 情况 下 这 个 值 都 是 g。 如 果 崩 省 发 生 在 第 9 和 10 步 之 间 ， 则 4 在 磁盘 上 的 
值 是 16， 将 其 恢复 到 值 8 是 必要 的 。 在 这 个 例子 中 , B 的 值 不 需要 撤销 ， 而 如 果 般 省 发 生 在 第 9 
步 前 ， 则 4 的 值 也 不 需要 撤销 。 然 而 ， 通 常 我 们 不 能 确定 恢复 是 否 必 要 ， 因 此 我 们 总 是 执行 撤销 
操作 。 口 
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推迟 提交 的 一 个 问题 
和 undo 日 志 一 样 ， 使 用 undo/redo 日 志 的 系统 中 可 能 出 现 这 样 的 行为 : 事务 在 用 户 看 来 
已 经 提交 (例如 ， 他 们 在 网 上 预订 了 一 个 航班 座位 然后 断 开 连 接 ), 但 由 于 <COMMIT T> 记 
录 尚 未 刷新 到 磁 提 ,后 来 的 一 次 朋 江 使 该 事务 被 撤销 而 不 是 重 做 。 如 果 这 样 的 可 能 性 是 一 个 
问题 ， 我 们 建议 为 undo/redo 日 志 使 用 一 条 附加 的 规则 : 
UR,: <COMMIT T> 记录 一 旦 出 现在 日 志 中 就 必须 被 刷新 到 磁盘 上 。 
例如 ， 在 图 6-9 中 我 们 将 在 第 10 步 后 加 入 FLUSH LOG, 








6.4.3 undo/redo 日 志 的 检查 点 

undo/redo 日 志 的 非 静止 检查 点 在 某 种 程度 上 比 其 他 日 志方 式 简 单一 些 。 我 们 只 需要 做 如 下 
事情 : 

1. 写 人 日 志 记 录 <START CKPT(7,, ，…， 
新 日 志 。 

2. 将 所 有 脏 缓 冲 区 写 到 磁盘 ， 脏 缓冲 区 即 包含 一 个 或 多 个 修改 过 的 数据 库 元 素 的 缓冲 区 。 
和 redo 日 志 不 同 的 是 ， 我 们 刷新 所 有 的 脏 缓冲 区 ， 而 不 是 仅 刷 新 那些 被 提交 事务 写 过 的 缓冲 区 。 

3. 写 人 日 志 记 录 <END CKPT > 并 刷新 日 志 。 

关于 第 2 点 需要 注意 的 是 ， 由 于 undo/redo 日 志 在 数据 何 时 到 达 磁 盘 方 面 提供 的 灵活 性 ， 我 
们 可 以 容忍 将 未 完成 事务 写 人 的 数据 写 到 磁盘 。 所 以 ， 我 们 能 够 容忍 小 于 完整 块 的 数据 库 元 素 ， 
并 因此 可 以 共享 缓冲 区 。 我 们 必须 对 事务 做 出 的 唯一 要 求 是 ; 

© 事务 在 不 确定 其 不 会 中 止 之 前 不 能 写 人 任何 值 (甚至 连 写 到 主 存 缓冲 区 也 不 允许 ) 。 


事务 在 恢复 中 奇怪 的 行为 

你 可 能 已 经 注意 到 ， 我 们 并 没有 指明 在 使 用 undo/redo 日 志 恢 复 时 先 撤 销 还 是 先 重 做 。 
事实 上 ， 不 管 我 们 先 撤销 还 是 先 重 做 ， 我 们 都 会 面临 如 下 情况 : 事务 了 提交 了 并 被 重 做 了 ， 
然而 ， 了 读 取 了 一 个 值 忆 ， 该 值 是 由 某 个 未 提交 并 被 撤销 的 事务 也 写 入 的 。 问 题 不 在 于 我 们 
先 重 做 , 使 具有 U 对 它 写 入 之 前 的 值 ; 还 是 先 撤 销 ， 使 下 具有 由 了 写 入 的 值 ， 不 管 哪 种 方 
式 ， 这 种 情况 都 没有 意义 ， 因 为 数据 库 的 最 终 状 态 不 对 应 于 任何 原子 的 事务 序列 的 结果 。 

在 实际 中 ，DBMS 必须 要 做 的 不 仅仅 是 把 改变 记 入 日 志 中 。 它 必须 保证 上 述 的 情况 绝 不 
会 发 生 。 我 们 在 第 7 章 中 讨论 隔离 像 了 和 U 这 样 的 事务 的 方法 ， 使 它们 通过 数据 库 元素 革 产 
生 的 相互 影响 不 会 发 生 。 在 8.1 节 中 ,我 们 明确 地 讨论 防止 了 读 入 环 的 “ 脏 ” 的 值 ( 即 尚 未 提 
交 的 值 ) 这 样 的 情况 发 生 的 方法 。 


正如 我 们 将 在 8. 1 节 看 到 的 那样 ， 为 了 避免 事务 间 不 一 致 的 


T) > ， 其 中 7T,,，… ,TT 是 所 有 的 活跃 事务 ， 并 市 




















START Ti 
相互 影响 ， 这 一 约束 无 论 如 何 都 几乎 是 必需 的 。 请 注意 ， 在 redo wees 
日 志 下 ， 上 面 的 条 件 并 不 充分 ， 因 为 即使 写 人 8 的 事务 一 定 会 提 SSUM D> 
交 ， 规则 R 要 求 事务 的 COMMIT 记录 在 B 写 到 磁盘 以 前 写 到 <T>, B,9, 10> 


磁盘 。 





、 <T, C,14,15> 
例 6. 12 图 6-10 给 出 了 类 似 于 图 6-8 中 redo 日 志 的 一 个 un- <START Ts> 
do/redo 日 志 。 我 们 仅仅 改变 了 更 新 记录 ， 不 仅 给 了 它们 新 值 ， 还 Sen oere ~ 
给 了 旧 值 。 简 单 起 见 ， 我 们 假设 各 种 情况 下 旧 值 比 新 值 小 1。 Scomrr T> 
3 


和 例 6. 8 中 一 样 ， 被 确定 为 检查 点 开始 时 唯一 的 已 提交 事 
务 。 由 于 这 一 日 志 是 undo/redo Hk, APRE T, SAW B 的 新 值 


<START CKPT (T>)> 








图 6-10 —~ undo/redo 日 志 
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10 已 写 到 磁盘 ， 而 这 在 redo 日 志 中 是 不 可 能 的 。 但 是 ， 这 一 磁盘 写 是 否 已 经 发 生 是 无 关 紧 要 的 。 
在 检查 点 过 程 中 ， 如 果 B 的 新 值 还 不 在 磁盘 上 ， 则 我 们 肯定 会 将 B 刷新 到 磁盘 上 ， 因 为 我 们 刷 
新 所 有 的 脏 缓冲 区 。 同 样 ， 如 果 由 已 提交 的 事务 T, 写 人 的 A 的 新 值 还 不 在 磁盘 上 ， 我 们 将 刷 
新 4。 

如 果 凯 省 在 这 一 事件 系列 的 末尾 发 生 ， 则 T, AT, 被 确定 为 已 提交 的 事务 。 事 务 7 在 检查 
点 前 。 由 于 我 们 在 日 志 中 发 现 <END CKPT > 记录， 我 们 可 以 正确 地 假设 T, 已 经 完成 并 已 将 其 改 
变 写 到 磁盘 上 。 我 们 因此 重 做 T, 和 7, ， 就 像 在 例 6.8 中 那样 ， 并 忽略 7,。 但 是 ， 当 我 们 重 做 像 
T, 这 样 的 事务 时 ， 我 们 并 不 需要 查看 比 < START CKPT( 7,) > 还 早 的 记录 ， 即 使 7 在 那 时 是 活 
路 的 ， 因 为 我 们 知道 T, 在 检查 点 开始 前 的 改变 在 检查 点 过 程 中 已 经 被 刷新 到 磁盘 。 

在 男 一 种 情况 下 ,假设 崩溃 正好 在 < COMMIT T, > 记录 写 到 磁盘 前 发 生 。 那 么 我 们 确定 7 
是 提交 的 而 T, 是 未 提交 的 。 我 们 通过 将 磁盘 上 的 C 置 为 15 来 重 做 1; 没有 必要 将 8 置 为 10， 
因为 我 们 知道 这 一 改变 在 <END CKPT > 前 已 到 达 磁 盘 。 但 是 ， 和 redo 日 志 的 情况 不 一 样 ， 我 们 
还 要 撤销 7;; 也 就 是 说 ， 我 们 将 磁盘 上 的 D 置 为 19。 如 果 T, 在 检查 点 开始 时 是 活跃 的， 我 们 将 
不 得 不 查看 比 START-CKPT 记录 更 早 的 记录 ， 以 确定 T, 是 否 有 更 多 的 动作 已 到 达 磁 盘 因 而 需要 
撤销 。 口 


6.4.4 习题 

习题 6. 4. 1 对 每 一 个 表示 事务 7 动作 的 日 志 记 录 序 列 ， 说 出 所 有 合乎 undo/redo 日 志 规 则 的 事件 系列 ， 我 
们 关心 的 事件 是 将 包含 数据 库 元 素 的 块 以 及 包含 更 新 和 提交 记录 的 日 志 块 写 到 磁盘 。 你 可 以 假定 日 志 记 
录 按 所 示 顺 序 写 磁 盘 ， 即 不 可 能 在 前 一 记录 还 没有 写 到 磁盘 时 将 下 一 记录 写 到 磁盘 。 
a) <START T>; <T,A,10,11>; <T, B,20,21>; <COMMIT T>. 
b) <START T>; <T, A, 10,21>; <T, B, 20, 21>; <T, C,30,31>; <cOMMIT T>. 


习题 6. 4. 2 下 面 是 两 个 事务 7 了 和 0 的 一 系列 日 志 记录 : <START U>; <U, A, 10, 11>; <START T>; 
<T, B, 20, 21>; <U, C, 30, 31>; <T, D, 40, 41>; <COMMITT>; <U, E, 50, 51>; 
<COMMIT U > 。 描 述 恢复 管理 器 的 行为 ， 包 括 对 磁盘 和 日 志 所 做 的 改变 ， 假 设 故 障 发 生 且 出 现在 磁盘 上 
的 最 后 一 条 日 志 记 录 如 下 : 
a) <START T> b) <COMMIT T> c) <U,E,50,51> d) <COMMIT U> 

习题 6. 4. 3 对 于 习题 6. 4. 3 描述 的 每 种 情况 ，7 和 U 所 写 的 哪些 值 必 然 出 现在 磁盘 上 ? 哪些 值 可 能 出 现在 
磁盘 上 ? 

习题 6. 4. 4 ”考虑 如 下 日 志 记录 序列 ;， <STARTS>; <S, A, 60, 61>; <COMMITS>; <START T>; 
<T, A, 61, 62>; <STARTU>; <U, B, 20, 21>; <T, C, 30, 31>; <STARTV>; <U, D, 
40, 41>; <V, F, 70, 71>; <COMMITU>; <T, E, 50, 51>; <COMMITT>; <V, B, 21, 22>; 
<COMMIT V > 。 假 设 我 们 在 如 下 日 志 记录 中 的 一 条 写 人 ( 主 存 ) 后 立即 开始 一 个 非 静止 检查 点 ; 
a) <S, A, 60, 61> b) <T, A, 61, 62>  c)<U, B, 20, 21> 
d) <U, D, 40, 41> e) <T, E, 50, 51> 
对 其 中 的 每 一 个 ， 说 明 ， 
i 何 时 写 人 <END CKPT > 记录 。 
i, 对 每 一 个 可 能 发 生 故 障 的 时 刻 ， 为 了 找到 所 有 可 能 未 完成 的 事务 ， 我 们 需要 在 日 志 中 回潮 多 远 。 请 考 

È <END CKPT > 记录 在 衣 滤 发 生 以 前 写 人 和 未 写 人 的 两 种 情况 。 
习题 6. 4.5 给 出 习题 6. 1. 1 中 各 个 事务 ( 称 其 为 了 ) A undo/redo 日 志 记录 ， 假 设 最 初 4=50 H B =25, 


6.5 针对 介质 故障 的 防护 
日 志 可 以 提供 针对 系统 故障 的 数据 保护 ， 系 统 故障 发 生 时 磁盘 上 不 会 丢失 任何 东西 ， 而 主 
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存 中 的 临时 数据 会 丢失 。 但 是 ， 正 如 我 们 在 6. 1. 1 节 讨 论 的 那样 ， 更 严重 的 故障 涉及 一 个 或 多 个 
磁盘 的 丢失 。 下 面 将 要 讨论 的 备份 系统 可 以 使 当 驻 留 在 磁盘 上 的 数据 丢失 时 ， 数 据 库 也 能 进行 
恢复 。 


6.5.1 备份 

为 了 针对 介质 故障 提供 数据 保护 ， 我 们 采用 一 种 涉及 备份 (archiving ) 的 解决 方法 ， 即 维护 与 
数据 库 自 身分 离 的 一 个 数据 库 拷 贝 。 如 果 有 可 能 暂时 关闭 数据 库 ， 我 们 可 以 在 某 种 存储 介质 (如 
磁带 或 光盘 ) 上 创建 一 个 备份 拷贝 ， 并 将 拷贝 存放 在 远离 数据 库 的 某 个 安全 的 地 方 。 备 份 保存 数 
据 库 在 备份 时 的 状态 ， 而 当 介质 故障 发 生 时 ， 数 据 库 就 可 以 被 恢复 到 这 一 状态 。 

要 前 进 到 一 个 更 近 的 状态 ， 我 们 可 以 使 用 日 志 ， 前 提 是 备份 拷贝 的 日 志 得 到 保存 ， 并 且 日 志 
自身 在 故障 之 后 仍 存在 。 为 了 防止 日 志 的 丢失 ， 我 们 可 以 在 日 志 了 几乎 刚刚 创建 时 就 将 它 的 一 个 
拷贝 传送 到 与 备份 一 样 的 远程 结 点 。 那 么 ， 如 果 日 志 与 数据 都 丢失 ， 我 们 就 可 以 使 用 备份 和 远程 
存储 的 日 志 进行 恢复 ， 至 少 恢复 到 日 志 最 后 被 传送 到 远程 结 点 的 那 一 时 刻 。 

由 于 建立 备份 是 一 个 宛 长 的 过 程 ， 因 此 我 们 试图 避免 在 备份 的 每 个 步骤 中 都 找 贝 整个 数据 
库 。 这 样 ， 我 们 区 别 两 个 级 别 的 备份 : 

L 完全 转 储 ， 这 时 需要 拷贝 整个 数据 库 。 

2. 增 量 转 储 ， 这 时 只 需要 拷贝 上 一 次 完全 转 储 或 增 量 转 储 后 改变 的 那些 数据 库 元 素 。 也 可 
以 有 多 个 级 别 的 转 储 ， 其 中 完全 转 储 被 认为 是 “0 级 ” 转 储 ， 而 “i 级 ” 转 储 拷贝 最 后 一 个 小 于 等 于 
i 级 的 转 储 之 后 改变 过 的 所 有 内 容 。 

我 们 可 以 用 一 个 完全 转 储 及 其 后 续 的 增 量 转 储 恢复 数据 库 ， 其 过 程 与 用 redo 或 undo/redo 日 
志 来 修复 系统 故障 所 带 来 损害 的 方式 非常 相似 。 我 们 将 完全 转 储 拷贝 回 数据 库 ， 然 后 以 从 前 往 
后 做 的 顺序 ， 做 后 续 增 量 转 储 所 记录 的 改变 。 


为 什么 不 是 仅仅 备份 日 志 ? 

我 们 可 能 会 对 备份 的 必要 性 提出 疑问 ， 因 为 如 果 我 们 不 想 停 沿 在 上 次 做 备份 时 的 数据 库 
状态 的 话 ， 则 无 论 如 何 我 们 都 要 在 安全 的 地 方 对 日 志 进 行 备 份 。 虽 然 可 能 不 太 明显 ， 答 案 在 
于 大 型 数据 库 变 化 的 典型 速率 。 尽 管 一 天 中 数据 库 只 有 很 少 一 部 分 会 发 生变 化 ， 但 一 年 以 上 
的 时 间 中 改变 会 比 数 据 库 自身 大 得 多 ， 而 每 个 变化 都 需要 在 日 志 中 记录 。 如 果 我 们 从 不 做 备 
份 ， 那么 日 志 永 远 也 不 能 被 截 短 ， 而 存储 日 志 的 开销 很 快 就 会 超过 存储 数据 库 拷贝 的 开销 。 














6.5.2 非 静 止 转 储 

6.5.1 节 中 讲 了 备份 的 简单 概念 ， 其 问题 在 于 : 大 多 数 数据 库 不 能 在 做 备份 拷贝 所 需要 的 一 
段 时 间 ( 可 能 是 几 个 小 时 ) 内 关闭 。 因 此 ， 我 们 需要 考虑 非 静 止 转 储 ， 它 与 非 静 止 检查 点 类 似 。 
请 回忆 一 下 ， 非 静止 检查 点 试图 在 磁盘 上 建立 检查 点 开始 时 (近似 的 ) 数据 库 状 态 的 一 个 拷贝 。 
我 们 可 以 依赖 于 检查 点 附近 一 段 时 间 内 的 很 小 一 部 分 日 志 ， 弥 补 和 该 状态 之 间 的 任何 偏差 ， 而 
偏差 的 存在 是 由 于 这 样 一 个 事实 : 在 检查 点 过 程 中 ， 新 事务 可 能 开始 并 写 磁盘 。 

类 似 地 ， 非 静止 转 储 试图 建立 转 储 开始 时 数据 库 的 一 个 拷贝 ， 而 在 转 储 进行 的 数 分 钟 甚至 
数 小 时 中 ， 数 据 库 活动 可 能 改变 磁盘 上 的 许多 数据 库 元 素 。 如 果 需 要 从 备份 中 恢复 数据 库 时 ， 在 
转 储 过 程 中 记录 的 日 志 项 可 以 用 来 整理 数据 ， 使 数据 库 到 达 一 个 一 致 的 状态 。 二 者 的 类 比如 图 
6-11 所 示 。 

非 静 止 转 储 按 某 种 固定 的 顺序 拷贝 数据 库 元 素 ， 有 可 能 正好 在 这 些 元 素 被 执行 中 的 事务 改 
变 时 发 生 。 其 结果 是 ， 拷 贝 到 备份 中 的 数据 库 元 素 可 能 是 也 可 能 不 是 转 储 开始 时 的 值 。 只 要 在 转 
储 持续 过 程 中 的 日 志 得 到 保留 ， 这 样 的 差异 可 以 通过 日 志 来 纠正 。 
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例 6. 13 举 一 个 非常 简单 的 例子 , 假设 我 们 的 数据 库 由 4、B、C 和 D4 个 元 素 构 成 ， 当 转 
储 开始 时 它们 分 别 具 有 1 到 4 这 几 个 值 。 在 转 储 过 程 中 ,4 改变 为 5，C 改变 为 6， 而 B 改变 为 
7。 然 而 ， 数 据 库 元 素 的 拷贝 是 按 顺序 的 ， 而 发 生 的 事件 序列 如 图 6-12 所 示 。 那 么 尽管 数据 库 在 
转 储 开始 时 具有 值 (1，2，3，4) ， 在 转 储 结束 时 具有 值 (5，7，6,，4) ， 但 是 在 备份 中 的 数据 库 

















拷贝 具有 值 (1,2，6，4) ， 这 是 在 转 储 过 程 中 任何 时 候 都 不 存在 的 数据 库 状 态 。 口 
检查 点 将 数据 从 
主 存 送 到 磁盘 ; 
日 志 使 得 能 从 系 
障 中 恢 
AA 
转 赃 将 数据 从 磁盘 
ee a 
中 恢复 拷贝 B 
拷贝 C 
备份 拷贝 有 
图 6-11 检查 点 与 转 储 的 类 比 图 6-12 非 静 止 转 储 中 的 事件 


更 详细 地 ， 建 立 备份 的 过 程 可 以 被 划分 为 以 下 步 又。 我 们 假设 日 志方 式 是 redo 或 undo/redo 
日 志 ; undo 日 志 不 适合 与 备份 一 起 使 用 。 
. 写 人 日 志 记 录 < START DUMP > 。 
根据 采用 的 日 志方 式 执 行 一 个 适当 的 检查 点 。 
根据 需要 执行 完全 转 储 或 增 量 转 储 ， 确 定数 据 的 拷贝 已 经 到 达 安 全 的 远程 结 点 。 
确定 足够 的 日 志 已 经 拷贝 到 安全 的 远程 结 点 ， 至 少 保证 第 2 项 中 的 检查 点 以 前 且 包括 该 
检查 点 的 日 志 在 数 据 库 介质 故障 后 仍 能 存在 。 

5. BAA midst < END DUMP > 。 


appre 











在 转 储 结束 后 ， 抛 弃 上 述 第 2 项 所 进行 的 检查 点 的 前 一 个 | <START pmp> | 
检查 点 开始 以 前 的 日 志 是 安全 的 。 <START CKPT GD)> 
例 6. 14 假设 对 例 6. 13 中 简单 的 数据 库 所 做 改变 由 事务 <Ts,C,3,6> 
T,( 写 4 和 B) 和 7T,( 写 0) 引起 ,而 它们 在 转 入 ‘开始 时 是 活路 的 。 | SGM T> 
图 6-13 给 出 了 转 储 过 程 中 事件 的 一 个 可 能 的 undo/redo 日 志 。 SEND ooro 
请 注意 ， 我 们 没有 表示 T 提交 。 事 务 在 转 储 进行 的 整个 过 | Dump completes 
程 中 保持 活跃 并 不 是 通常 的 情况 ， 但 这 并 不 影响 我 们 下 面 要 讨 
论 的 恢复 机 制 的 正确 性 。 口 图 6-13 ” 转 储 中 记载 的 日 志 


6.5.3 ”使 用 备份 和 日 志 的 恢复 

假设 发 生 了 介质 故障 ， 并 且 我 们 要 通过 此 前 已 到 达 安 全 的 远程 结 点 、 在 崩溃 中 未 丢失 的 日 
志和 最 近 的 备份 重建 数据 库 。 我 们 执行 下 列 步 又; 

1. 根据 备份 恢复 数据 库 。 

a) 找到 最 近 的 完全 转 储 ， 并 根据 它 来 恢复 数据 库 ( 即将 备份 拷贝 到 数据 库 ) 。 

b) 如果 有 后 续 的 增 量 转 储 ， 按 照 从 前 往 后 做 的 顺序 ， 根 据 各 个 增 量 转 储 修改 数据 库 。 

2. 用 保留 下 来 的 日 志 修 改 数据 库 。 使 用 对 应 所 用 日 志方 式 的 合适 的 恢复 机 制 。 

例 6. 15 假设 在 例 6.14 所 示 转 储 完 成 后 发 生 了 介质 故障 ， 而 图 6-13 所 示 日 志 得 以 保存 。 为 
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了 让 过 程 更 有 意思 一 些 , 假设 留 下 来 的 部 分 日 志 中 尽管 如 该 图 中 所 示 包 括 < COMMIT T, > 记录 ， 
但 不 包括 < COMMIT T, > 记录。 数据 库 首 先 恢复 到 备份 中 的 值 ， 即 对 数据 库 元 素 4、B、C AID 
来 说 , 分 别 是 (1, 2, 6, 4)。 

现在 ， 我 们 必须 查看 日 志 。 由 于 了 已 完成 ,我 们 重 做 将 C 置 为 6 的 步骤 。 在 这 个 例子 中 ，C 
已 经 具有 值 6， 但 有 可 能 : 

a)C 的 备份 在 T, 改变 C 以 前 产生 。 

b) 备 份 实际 捕获 的 是 C 的 一 个 更 靠 后 的 值 ， 而 该 值 可 能 是 也 可 能 不 是 由 一 个 提交 记录 得 以 
保留 的 事务 所 写 人 。 如 果 该 事务 提交 ， 则 后 面 的 恢复 中 C 将 被 恢复 为 在 备份 中 找到 的 值 。 

HFT, 没有 COMMIT ICR, ROA T o EAT 的 日 志 记 录 ， 我 们 确定 4 必须 被 恢复 
为 值 1 而 B 必须 被 恢复 为 值 2。 在 备份 中 它们 碰巧 具有 这 些 值 ， 但 实际 的 备份 值 可 能 由 于 修改 后 
的 4 和 /或 被 包括 在 备份 中 而 不 同 。 口 


6. 5.4 习题 

习题 6. 5. 1 如 果 在 例 6. 14 和 例 6.15 中 使 用 的 是 redo 日 志 而 不 是 undo/redo 日 志 ， BRA: 
a) 日 志 会 是 怎样 的 ? 
Ib) 如 果 我 们 需要 使 用 备份 以 及 这 一 日 志 进 行 恢复 ，T, 未 提交 的 后 果 是 什么 ? 
c) 恢 复 后 数据 库 的 状态 是 什么 ? 


6.6 小 结 


。 事务 管理 : 事务 管理 器 的 两 个 主要 任务 是 通过 日 志保 证 数据 库 动 作 的 可 恢复 性 ， 以 及 通 
过 调度 器 保证 事务 正确 的 并 发 行为 (将 在 下 一 章 讨论 ) 。 

数据 库 元 素 ; 数据 库 被 划分 为 元 素 ， 通 常 是 磁盘 块 ， 但 也 可 以 是 诸如 关系 或 元 组 。 数 据 
库 元 素 是 记 日 志和 进行 调度 的 单位 。 

日 志 : 关于 事务 的 每 个 重要 动作 (开始 、 改 变数 据 库 元 素 、 提 交 或 中 止 ) 的 一 条 记录 被 存 
储 在 日 志 中 。 日 志 在 某 个 时 候 必 须 被 备份 到 磁盘 上 ， 这 一 时 刻 同 对 应 的 数据 库 改变 转移 
到 磁盘 上 的 时 刻 相关 ， 但 依赖 于 所 采用 的 日 志方 式 。 

恢复 : 当 系 统 般 省 发 生 时 ， 日志 被 用 来 修复 数据 库 ， 将 其 恢复 到 一 个 一 致 的 状态 。 

日 志方 式 : 日 志 的 3 种 主要 方式 是 undo、redo 和 undo/redo， 其 命名 是 根据 恢复 时 它们 可 
以 进行 恢复 的 方式 。 

undo 日 志 : 每 当 数 据 库 元 素 被 修改 时 ， 这 种 方式 只 在 日 志 中 记录 旧 值 。 使 用 undo 日 志 ， 
数据 库 元 素 的 新 值 必 须 在 关于 该 改变 的 日 志 记 录 到 达 磁 盘 后 ， 并 且 在 做 出 这 一 改变 的 事 
务 的 提交 记录 到 达 磁 盘 前 写 到 磁盘 。 恢 复 通 过 为 每 个 未 提交 事务 恢复 旧 值 来 完成 。 

redo HG: 这 里 ， 只 有 数据 库 元 素 的 新 值 被 记录 在 日 志 中 。 采 用 这 种 日 志 形 式 ， 数 据 库 
元 素 的 值 只 有 在 这 一 改变 的 日 志 记 录 与 其 事务 的 提交 记录 都 已 到 达 人 磁盘 后 才能 写 到 磁盘 。 
恢复 要 做 的 是 为 每 个 已 提交 的 事务 重新 写 人 新 值 。 

undo/redo 日 志 : 在 这 种 方式 中 ， 旧 值 和 新 值 都 被 记录 在 日 志 中 。undo/redo 日 志 比 其 他 方 
式 更 灵活 ， 因 为 它 只 要 求 关 于 改变 的 日 志 记 录 比 改变 自身 先 出 现在 磁盘 上 。 对 于 提交 记 
录 何 时 出 现 并 没有 要 求 。 恢 复 通过 重 做 已 提交 的 事务 并 撤销 未 提交 的 事务 来 进行 。 
检查 点 : 由 于 当 需 要 进行 恢复 时 ， 原 则 上 所 有 的 恢复 方式 都 需要 查看 整个 日 志 ，DBMS 
必须 不 时 地 对 日 志 做 检查 点 ， 以 保证 检查 点 以 前 的 日 志 记 录 在 恢复 中 不 再 需要 。 因 此 ， 
旧 的 日 志 记 录 最 终 可 以 被 丢弃 ， 而 其 磁盘 空间 也 可 以 被 重用 。 

e 非 静 止 检查 点 : 为 了 避免 做 检查 点 时 关闭 系统 ， 与 每 一 种 日 志方 式 相关 的 技术 使 检查 点 
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可 以 在 系统 运作 且 数 据 库 改变 发 生 时 进行 。 唯 一 的 代价 是 恢复 时 非 静 止 检查 点 前 的 某 些 
日 志 记 录 可 能 需要 检查 。 

。 备份: 日 志 仪 提供 针对 引起 主 存 丢失 的 系统 故障 的 数据 保护 ， 为 在 引起 磁盘 内 容 丢 失 的 
故障 的 情况 下 保护 数据 ， 有 必要 使 用 备份 。 备 份 是 在 安全 的 地 方 存储 的 数据 库 拷贝 。 

。 增 量 备份 :与 周期 性 地 将 整个 数据 库 拷贝 到 备份 中 相反 ， 一 个 完整 备份 后 可 以 跟着 几 个 
增 量 备份 ， 其 中 只 有 改变 的 数据 被 拷贝 到 备份 中 。 

。 非 静止 备份 : 在 数据 库 运 作 中 建立 数据 备份 的 技术 是 存在 的 。 它 们 涉及 记载 备份 开始 和 
结束 的 日 志 记录 ， 以 及 在 备份 时 为 日 志 执行 一 个 检查 点 。 

e 从 介质 故障 中 恢复 : 当 磁 盘 丢 失 时 可 以 通过 如 下 过 程 恢 复 ， 首 先 用 数据 库 的 一 个 完整 备 
份 恢 复 ， 然 后 根据 后 续 的 增 量 备份 进行 修改 ， 最 后 通过 使 用 日 志 的 一 个 备份 拷贝 恢复 到 
某 个 一 致 的 数据 库 状 态 。 
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第 7 章 并 发 控制 


并 发 执行 的 事务 之 间 的 相互 影响 可 能 导致 数据 库 状态 的 不 一 致 ， 即 使 各 个 事务 能 保持 状态 
的 正确 性 ,而 且 也 没有 任何 故障 发 生 。 因 此 ， 不 同事 务 各 个 步骤 的 执行 顺序 必须 以 某 种 方式 进行 
规范 。 该 规范 是 由 DBMS 的 调度 器 部 件 完 成 ， 而 保证 并 发 执行 的 事务 能 保持 一 致 性 的 整个 过 程 称 
为 并 发 控制 。 调 度 器 的 作用 如 图 7-1 所 示 。 

当 事 务 请 求 对 数据 库 中 的 元 素 进行 读 写 时 ， 这 些 
请 求 被 传递 给 调度 器 。 大 多 数 情况 下 调度 器 将 直接 执 
行 读 写 ， 如 果 所 需 数据 库 元 素 不 在 缓冲 区 中 就 首先 调 
用 缓冲 区 管理 器 。 但 是 在 某 些 情况 下 ， 立 即 执行 请 求 
是 不 安全 的 。 调 度 器 必须 推迟 请 求 的 执行 ， 有 的 并 发 
控制 技术 中 ， 调 度 器 甚至 可 能 中 止 提交 请 求 的 事务 。 

我 们 首先 讨论 如 何 保证 并 发 执行 的 事务 能 保持 数 缓冲 区 TT 
据 库 状 态 的 正确 性 。 抽 象 的 要 求 称 为 可 串 行 性 ， 另 外 
还 有 一 个 更 强 的 、 重 要 的 条 件 称 为 冲突 可 串 行 性 ， 它 ”图 7-1 调度 器 接收 事务 的 读 / 写 请 求 , 或 
是 大 多 数 调度 器 所 真正 实现 的 。 我 们 考虑 实现 调度 器 者 在 缓冲 区 中 执行 ， 或 者 将 其 推迟 
最 重要 的 技术 : 封锁 、 时 间 蕉 和 有 效 性 确认 。 我 们 对 基于 封锁 的 调度 器 的 讨论 包括 “两 阶段 封 
锁 " 这 一 重要 概念 ， 这 是 广泛 使 用 的 一 个 保证 可 串 行 性 的 要 求 。 


7.1 串 行 调度 和 可 串 行 化 调度 

回顾 6. 1. 3 节 所 说 的 “正确 性 原则 ”， 每 个 事务 如 果 在 隔离 的 情况 下 执行 ( 即 没有 其 他 任何 事 
务 与 之 同时 执行 ) ， 将 把 任何 一 致 的 状态 转换 到 另 一 个 一 致 的 状态 。 在 实战 中 ， 事 务 通 常 和 其 他 
事务 并 发 执行 ， 因 而 正确 性 原则 并 非 直接 适用 。 本 节 介 绍 了 调度 的 概念 和 由 事务 和 “可 串 行 化 调 
度 " 完 成 的 产生 结果 与 一 次 执行 一 个 事务 所 产生 结果 相同 的 动作 序列 。 


7.1.1 调度 

调度 是 一 个 或 多 个 事务 的 重要 动作 的 一 个 序列 。 当 研究 并 发 控制 时 ， 重 要 的 读 写 动 作 发 生 
在 主 存 缓冲 区 中 ， 而 不 是 磁盘 上 。 也 就 是 说 ， 某 个 事务 T 放 入 缓冲 区 中 的 数据 库 元 素 4 在 该 缓冲 
区 中 可 能 不 仅 被 7 还 被 其 他 访问 4 的 事务 读 或 写 。 

例 7. 1 让 我 们 考虑 两 个 事务 以 及 它们 的 动作 按 某 些 顺 序 执行 时 的 数据 库 的 影响 。7, A T, 
重要 的 动作 如 图 7-2 所 示 。 变 量 1 Als 分 别 是 7, AT, 的 局 部 变量 ; 它们 不 是 数据 库 元 素 。 

我 们 将 假设 数据 库 上 唯一 的 一 致 性 约束 是 4=B8。 由 于 7 给 4 和 B 都 加 上 100, m T, HA A 
8 都 乘 2， 我 们 知道 这 两 个 事务 隔离 运行 时 各 自 都 能 保持 一 致 性 。 口 


7.1.2 串 行 调 度 

如 果 一 个 调度 的 动作 组 成 首先 是 一 个 事务 的 所 有 动作 ， 然 后 是 另 一 事务 的 所 有 动作 ， 依 此 
类 推 ， 那 么 这 一 调度 是 串 行 的 。 不 允许 动作 的 混合 。 

例 7.2 对 图 7-2 中 的 事务 而 言 ， 有 两 个 串 行 调 度 ， 一 个 亿 E T 前 ， 而 另 一 个 于 E T 前 。 
图 7-3 给 出 了 也 在 前 时 的 事件 序列 ， 初 态 为 4 = B= 25。 遵 照 惯例 ， 当 我 们 竖 直 显示 时 ， 在 


读 / 写 请 求 





读 和 写 
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页 面 中 靠 下 的 在 时 间 上 靠 后 。 此 外 ， 所 给 4 和 B 值 指 的 是 它们 在 主 存 缓冲 区 中 的 值 ， 而 不 一 定 
是 它们 在 磁盘 上 的 值 。 





























Ty To A B 
25 25 
READ(A,t) 
t := t+100 
WRITE(A,t) 125 
READ(B,t) 
t := t+100 
T To WRITE(B,t) 125 
READ(A,t)  READ(A,s) | READ (A, s) 
t := t+100 s := 8*2 S := S#2 
WRITE(A,t) WRITE(A,s) WRITE(A,s) | 250 
READ(B,t) READ(B,s) READ(B,s) 
t := t+100 s := g#*2 S ;= 8*2 
WRITE(B,t) WRITE(B,s) WRITE(B ,s) 250 
图 7-2 两 个 事务 图 7-3 刀 在 史前 的 串 行 调度 


图 7-4 给 出 了 7 在 前 的 另 一 个 串 行 调度 ， 初 态 仍 假设 为 4 = 有 =25。 请 注意 ， 两 个 调度 A 


和 B 最终 的 值 是 不 同 的 ; AMB 在 先 做 7, 时 都 是 250， 而 在 [7 T A B 
Fei T, 时 都 是 150。 通 常 ， 我 们 不 能 期 望 数据 库 终 态 与 事务 | Rep | 
顺序 无 关 。 口 8 := 8*2 

我 们 可 以 像 图 7-3 和 图 7-4 中 那样 ， 通 过 按 发 生 顺 序列 ee | 5 
出 所 有 动作 来 表示 申 行 调度 。 但 是 ， 由 于 申 行 调度 中 动作 的 5 := B+2 
顺序 只 依赖 于 事务 本 身 的 顺序 ， 我 们 有 时 通过 事务 列表 来 表 |an TEO 50 
示 串 行 调度 。 因 此 ， 图 7-3 中 的 调度 表示 为 (T,，T,)， 而 图 |t := t+100 
7-4 中 的 调度 表示 为 (7,,，7,)。 HEAD a) 150 
7.1.3 ”可 串 行 化 调度 | aee) 150 

















事务 的 正确 性 原则 告诉 我 们 ， 每 个 串 行 调度 都 将 保持 数 
据 库 状 态 的 一 致 性 。 但 是 还 有 其 他 能 保证 可 保持 一 致 性 的 调 
度 吗 ? 有 ， 下 面 的 例子 可 以 说 明 。 通 常 ， 如 果 存 在 串 行 调度 8'， 使 得 对 于 每 个 数据 库 初 态 ， 调 度 
S 和 调度 5' 的 效果 相同 ， 我 们 就 说 这 个 调度 S 是 可 囊 行 化 的 。 

例 7.3 图 7-5 给 出 了 例 7.1 中 事务 的 一 个 调度 ， 此 调度 是 可 串 行 化 的 ， 但 不 是 串 行 的 。 
在 这 个 调度 中 , T, 在 T, 作用 于 4 后 而 在 7, 作用 于 B 前 作用 于 4。 但 是 ,我 们 看 到 两 个 事务 按 
这 种 方式 调度 ， 结 果 和 在 图 7-3 中 看 到 的 串 行 调度 (7 ，7, ) 一样。 为 了 说 服 自己 这 一 陈述 是 
正确 的 ， 我 们 必须 不 仅 考虑 像 图 7-5 中 那样 从 数据 库 状态 4 = 下 = 25 开始 产生 的 结果 ， 还 要 考 
虑 从 任何 一 致 的 状态 开始 的 情况 。 由 于 所 有 一 致 的 数据 库 状 态 满足 4 = B =c， 不 难 推断 在 图 7- 
5 的 调度 中 ，4 和 8 得 到 的 值 都 是 2(c +100)， 因 此 从 任意 一 致 的 状态 开始 一 致 性 都 能 得 到 
保持 。 

另 一 方面 ， 考 虑 图 7-6 的 非 可 串 行 化 的 调度 。 我 们 之 所 以 能 确定 它 不 是 可 串 行 化 的 ， 原 因 在 
于 它 从 一 致 的 状态 4 = B=25 开始 ， 最 后 使 数据 库 处 于 不 一 致 的 状态 4 = 250 而 B=150。 请 注意 ， 
按照 这 个 动作 的 顺序 ， 即 7 ZENTA, TT, 先 作用 于 8， 我 们 实际 上 在 4 和 BB 上 实施 了 不 同 
的 运算 ， 也 就 是 说 4:， =2(A+100), ÑB: =28+100。 图 7-6 的 调度 是 并 发 控制 机 制 必须 避免 
的 行为 类 型 。 口 


图 7-4 T, ÆT, 前 的 串 行 调度 
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READ(A,t) ` READ(A,t) 
t := t+100 t := t+100 
WRITE(A,t) 125 : WRITE(A,t) 125 
READ(A,a) READ (A,s8) 
s := 8*2 s := 8*2 
WRITE(A,s) | 250 WRITE(A,s) | 250 
READ(B,t) READ(B,s) 
t := t+100 S := 8*2 
WRITE(B,t) 125 WRITE(B,s) 50 
READ(B,s) READ(B,t) 
s := g*2 t := t+100 
WRITE (B, s) 250 WRITE(B,t) 





图 7-5 一 个 非 串 行 的 可 串 行 化 调度 图 7-6 一 个 非 可 串 行 化 的 调度 


7.1.4 ”事务 语义 的 影响 
目前 为 止 我 们 对 可 串 行 性 的 学 习 中 ， 我 们 详细 地 考虑 了 事务 执行 的 操作 ， 以 确定 一 个 调度 
是 否 可 串 行 化 的 。 事 务 细节 确实 是 有 关系 的 ， 正 如 我 们 将 在 下 面 的 例子 中 看 到 的 那样 。 

例 7. 4 考虑 图 7-7 中 的 调度 ， 它 和 图 7-6 中 调度 唯一 不 同 的 地 方 在 于 7 所 执行 的 运算 。 也 
BEW, T, 并 非 将 4 和 8B 乘 2， 而 是 对 每 个 加 200。 我 
们 很 容易 验证 ,不管 初 态 是 什么 , 终 态 是 由 品行 调度 |an 
(7,，) 产 生 的 结果 。 很 巧 的 是 ， 这 也 是 由 另 一 个 申 行 |t := t+100 


WRITE(A,t) 









HET, 7, ) 产 生 的 结果 。 m READ(A,s) 

不 幸 的 是 ， 调 度 器 考虑 事务 所 进行 计算 的 细节 是 不 2 1200 
现实 的 。 由 于 事务 通常 不 仅 包括 SQL 或 其 他 高 级 语言 语 READ(B,3) 
名 书写 的 代码 ， 还 包括 通用 编程 语言 编写 的 代码 ， 不 可 «ae | 


WRITE(B,s) 


能 确切 地 说 出 事务 在 做 什么 事 。 但 是 ， 调 度 器 的 确 能 看 | READ(B,+) 
到 来 自 事务 的 读 写 请 求 ， 于 是 能 够 知道 每 个 事务 读 哪些 | alee) 
数据 库 元 素 ， 以 及 它 可 能 改变 哪些 元 素 。 为 了 简化 调度 - 
器 的 工作 ， 通 常 假定 ; 图 7-7 一 个 仅仅 由 于 事务 细节 行为 而 

。 事 务 了 所 写 的 任意 数据 库 元 素 4 被 赋予 的 值 不 发 可 审 行 化 的 调度 

生 任何 算术 巧合 地 依赖 于 数据 库 状态 。 

例 7.4 是 一 个 “巧合 "的 例子 ， 尽 管 两 次 操作 在 两 个 变量 上 以 不 同 的 顺序 执行 ， 因 为 4 + 100 
+200 =B +200 +100， 所 以 有 4 =B。 换 名 话说， 如 果 了 对 数据 库 元 素 做 某 件 事情 能 使 数据 库 状 
态 不 一 致 ， 则 了 将 会 做 这 件 事 。 


7.1.5 事务 和 调度 的 一 种 记 法 

如 果 我 们 假设 “没有 巧合 " ， 那 么 只 有 事务 执行 的 读 和 写 需 要 考虑 ， 而 不 涉及 真实 的 值 。 因 
此 ， 我 们 将 用 一 种 简写 的 记 法 来 表示 事务 和 调度 ， 其 中 动作 有 rr (X) 和 wr(X) ， 分 别 表示 事务 了 
读 和 写 数 据 库 元 素 。 此 外 ， 由 于 我 们 经 常 将 我 们 的 事务 称 为 T,，7,，…， 我们 采用 惯用 记 法 
r (X) w (D DER rr (X) A wr (XX) 的 同义词 。 

617.5 图 7-2 的 事务 可 以 写 为 : 

Ti: rı(A); wi(A); rı (B); wi (B); 

Tz: r2(A); we(A); r2(B); we(B); 


举 另 一 个 例子 ， 
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71(A); wi(A); r2(A); we(A); 71 (B); wi(B); r2(B); we(B); 


是 图 7-5 中 的 可 串 行 化 调度 。 口 
为 使 这 一 记 法 更 精确 : 
1. 动作 是 形 如 r,(X) 或 w,(X) 的 表达 式 , 分 别 表示 事务 7, 读 或 写 数 据 库 元 素 X 
2. 事务 T, 是 具有 下 标 守 的 动作 序列 。 
3. 事务 集合 7 了 的 调度 5 是 一 个 动作 序列 ， 其 中 对 了 中 的 每 个 事务 T, T, 中 的 动作 在 $ 中 出 
现 的 顺序 和 其 在 T, 自身 定义 中 出 现 的 顺序 一 样 。 我 们 说 $ 是 组 成 它 的 事务 动作 的 一 个 交错 。 
例如 ， 例 7. 5 的 调度 中 ， 所 有 下 标 为 1 的 动作 出 现 的 顺序 和 它们 在 定义 中 的 顺序 一 样 ， 
而 所 有 下 标 为 2 的 动作 出 现 的 顺序 和 它们 在 T, 定义 中 的 顺序 一 样 。 


7. 1.6 习题 
* 习 题 7.1.1 ”航班 预订 系统 执行 的 一 个 事务 T, WITU FER: 
i 询问 顾客 希望 的 航班 时 间 和 城市 。 所 需 航班 信息 位 于 数据 库 元 素 ( 可 能 是 磁盘 块 )4 和 B 中 ， 系 统 在 磁 


盘 上 检索 所 需 信 息 。 
i 告诉 顾客 供 选 择 的 选项 ， 顾 客 选择 一 个 航班 ， 该 航班 的 数据 在 B 中 ,包括 该 航班 的 预订 号 。 为 该 顾客 
预订 该 航班 。 


ii 顾客 为 该 航班 选择 一 个 座位 ; 该 航班 的 座位 信息 位 于 数据 库 元 素 C 中 。 
iv. 系统 获得 顾客 的 信用 卡号 ,并 将 该 航班 的 账单 附加 到 数据 库 元 素 D 的 账单 列表 上 。 
v 顾客 的 电话 和 航班 数据 被 加 到 数据 库 元 素 E 上 的 另 一 个 列表 中 ， 这 是 为 了 向 顾客 发 确认 航班 的 传真 。 
将 事务 了 表示 为 r 和 w 动作 的 一 个 序列 。 
*! 习题 7. 1.2 如 果 两 个 事务 分 别 有 5 个 动作 ， 它 们 的 交错 有 和 多少 ? 


7.2 冲突 可 种 行 化 


商用 系统 中 的 调度 器 通常 强制 执行 被 称 为 “冲突 可 串 行 化 "的 条 件 ， 该 条 件 比 在 7.1.3 节 中 
介绍 的 可 串 行 化 的 一 般 概念 要 强 。 它 基于 冲突 这 一 概念 ， 即 调度 中 一 对 连续 的 动作 ， 它 们 满足 : 
如 果 它 们 的 顺序 交换 ， 那 么 涉及 的 事务 中 至 少 有 一 个 的 行为 会 改变 。 


7.2.1 冲突 

首先 我 们 要 看 一 下 ， 大 多 数 动作 不 冲突 。 在 接 下 来 的 内 容 中 ， 我 们 假设 T, 和 7 是 不 同 的 事 
务 ， 即 izj。 ` 

Ln); (DATEER, ME X=Y, 原因 是 这 些 步骤 都 不 改变 任何 数据 库 元 素 
的 值 。 

2.7,(X); w,( 了 ) 不 会 是 冲突 的 ， 只 要 XY。 原因 是 7 如果 在 7 X AUS Y, 的 值 不 会 
改变 。 而 且 7, 读 针对 7 没有 影响 ， 因 此 它 不 会 影响 7 为 Y 写 的 值 。 

3.w(X) ; r( 了 ) 不 会 是 冲突 的 ， 只 要 XzY。 原 因 和 2 一样 。 

4. 类 似 的 还 有 ，w:(X) ; w,( 了 ) 不 会 是 冲突 ， 只 要 XY 了 。 

与 此 相反 ， 有 三 种 情况 下 我 们 不 能 交换 动作 的 顺序 : 

a) 同 一 事务 的 两 个 动作 ， 如 r,(X); w,( 了 7) ， 总 是 冲突 的 。 原 因 在 于 ， 单 个 事务 的 动作 顺序 
是 固定 的 ， 而 且 是 不 能 被 重新 排列 的 。 

b) 不 同事 务 对 同一 数据 库 元 素 的 写 冲 突 。 也 就 是 说 ，w;(X); w;(X) 是 一 个 冲突 。 原 因 在 
于 ,在 被 写 人 时 , X WEE T, 计算 出 它 是 多 少 后 就 一 直 保持 。 如 果 我 们 交换 顺序 为 w,(X); 
wi《( 革 ) ， 那 么 我 们 最 后 使 X 具 有 了 ,计算 出 的 值 。 我 们 关于 “没有 巧合 ” 的 假设 告诉 我 们 ，7, 和 也 
写 入 值 可 能 不 同 ， 至 少 对 于 某 些 数据 库 初 态 而 言 。 
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c) 不 同事 务 对 同一 数据 库 元 素 的 读 和 写 也 冲突 。 也 就 是 说 ，r; (X); wj(X) 是 冲突 的 ， 
w (X); (XX) 也 是 。 如 果 我 们 将 w,(X) 移 到 7,(X) 前 ,那么 工读 到 的 的 值 将 是 被 T, SAME, 
而 我 们 认为 这 个 值 不 一 定 等 于 X 原 有 的 值 。 因 此 ， 交 换 r,(X) 和 w,(X) 的 顺序 影响 7, 读 到 的 的 
值 ， 而 且 可 能 因此 影响 T, 所 做 的 事 。 

我 们 得 到 的 结论 是 ,不 同事 务 的 任何 两 个 动作 可 以 交换 ， 除 以 下 情况 外 : 

1. 它们 涉及 同一 数据 库 元 素 。 

2. 至 少 有 一 个 是 写 。 

将 这 一 想法 进行 扩展 ， 我 们 可 以 接受 任 一 调度 ， 进 行 任意 非 冲突 的 交换 ， 目 标 是 将 该 调度 转 
换 为 一 个 串 行 调 度 。 如 果 我 们 能 做 到 这 一 点 ， 那 么 初始 的 调度 是 可 串 行 化 的 ， 因 为 它 对 数据 库 状 
态 的 影响 在 我 们 做 每 一 个 非 冲突 交换 时 是 不 变 的 。 

如 果 通 过 一 系列 相 邻 动作 的 非 冲突 交换 能 将 它们 中 的 一 个 转换 为 另 一 个 ， 我 们 说 两 个 调度 
是 冲突 等 价 的 。 如 果 一 个 调度 冲 罕 等 价 于 一 个 串 行 调度 ， 那 么 我 们 说 该 调度 是 冲突 可 串 行 化 的 。 
请 注意 ， 冲 突 可 串 行 化 是 可 串 行 化 的 一 个 充分 条 件 ; 即 冲突 可 串 行 化 调度 是 可 串 行 化 调度 。 冲 突 
可 串 行 化 对 一 个 可 串 行 化 调度 来 说 并 不 是 必要 的 ， 但 它 是 商用 系统 中 的 调度 器 在 需要 保证 可 审 
行 化 时 通常 使 用 的 条 件 。 

例 7.6 考虑 例 7.5 中 的 调度 


rı(A); wi(A); r2(4); we(A); rı(B); wi(B); ra(B)i we(B); 


我 们 说 这 个 调度 是 冲突 可 串 行 化 的 。 图 7-8 给 出 了 将 这 一 调度 转换 为 串 行 调度 (也 ，7, ) 的 一 
系列 交换 ， 在 此 串 行 调度 中 T, 的 所 有 动作 在 T, 的 所 有 动作 之 前 。 我 们 在 每 一 步 中 要 交换 的 相 邻 
动作 对 上 加 了 下 划 线 。 口 

rı(A); wi(A); r2(A); we(A); 71(B); wi(B); r2(B); we(B); 
r1(A); w (A); r2(A); 71(B); we(A); wi(B); r2(B); wa(B); 


rı(A); wi(A); r1(B); r2(A); wa(A); wi(B); r2(B); we(B); 
71 (A); wi(A); r1(B); ra(4)i wi(B); we(A); r2(B); w2(B); 





























11 (A); wi(A); r1(B); wi(B); r2(4); w(4); r2(B); w2(B); 





图 7-8 ”通过 交换 相 邻 动作 将 冲突 可 串 行 化 调度 转换 为 申 行 调度 


7.2.2 优先 图 及 冲突 可 串 行 化 判断 

检查 调度 $ 并 决定 它 是 否 是 冲突 可 串 行 化 相对 而 言 比较 简单 。 不 管 在 S 的 什么 地 方 出 现 了 冲 
罕 动 作 ， 执 行 这 些 动 作 的 事务 在 任何 冲突 等 价 的 串 行 调度 中 出 现 的 顺序 必须 和 这 些 动 作 在 S 中 出 
现 的 顺序 一 样 。 因 此 ， 冲 突 动 作对 假定 的 、 冲 突 等 价 的 串 行 调度 中 事务 的 顺序 加 上 了 限制 。 如 果 
这 些 限制 不 是 相互 矛盾 的 ， 那 么 我 们 就 能 找到 一 个 冲突 等 价 的 串 行 调 度 。 如 果 存 在 相互 矛盾 ， 我 
们 就 知道 不 存在 这 样 的 串 行 调度 。 

已 知 调度 S， 其 中 涉及 事务 TT, 和 7T,， 可 能 还 有 其 他 事务 ,我们 说 T RETF T, Ste 
T, < sT,， 如 果 有 工 , 的 动作 4, AT, 的 动作 A, WE: 

1. 在 S$ 中 4 在 4, 前 。 

2. A, 和 A, 都 涉及 同一 数据 库 元 素 。 

3. A, A, 中 至 少 有 一 个 是 写 动作 。 

请 注意 ， 这 正 是 我 们 不 能 交换 A, 和 4, 顺序 的 情况 。 因 此 ， 在 任何 冲突 等 价 于 5 的 调度 中 A, 
将 出 现在 A, 前 。 所 以 ， 冲 突 等 价 的 串 行 调度 必然 使 下 在 7, 前。 

我 们 可 以 在 优先 图 中 概括 这 样 的 先后 次 序 。 优 先 图 的 结 点 是 调度 S 中 的 事务 。 当 这 些 事务 是 
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具有 不 同 的 i 的 7 时 ,我 们 将 仅 用 整数 i 来 标记 工 , HAA. WRT, <T, WA-RMAR i WB 
AJ EIM 

例 7.7 下 面 的 调度 SHRZAES Tis T, AT,. 

S: r2(A); rı(B); w2(A); r3(A); wi(B); w3(A); r2(B); we(B); 

如 果 我 们 观察 关于 AWE, RITARA T, <T, 的 多 个 原因 。 例 如 , ES Pr, (AE 
ws(4) 前 ， 而 w,(4) 既 在 r,(4) 前 又 在 w,(4) 前 。 这 三 个 发 现 中 的 任何 一 个 就 足以 说 明 图 7-9 的 
优先 图 中 从 2 到 3 的 弧 是 正确 的 。 

类 似 地 ， 如 果 我 们 观察 关于 B 的 动作 ， 我 们 可 以 找到 TT <7, 的 多 个 原因 。 例 如 ， 动 作 
rm(8B) 在 w,(B) 前 。 因 此 ，5 的 优先 图 中 也 有 从 1 到 2 的 弧 。 然 而 ,我 们 能 用 调度 S 的 动作 顺序 
来 说 明 其 合理 性 的 弧 也 就 只 有 这 些 。 口 


为 什么 冲突 可 串 行 化 对 可 串 行 化 来 说 不 是 必要 的 
考虑 事务 了、 也 和 TT，， 它 们 各 为 了 写 入 一 个 值 。T OT, 在 为 牙 写 入 值 以 前 还 都 为 了 写 
入 值 。 一 个 可 能 的 、 恰 好 是 串 行 的 调度 是 : 
Si: wi(Y); wi(X); we(¥); we(X); ws(X); 
S REE XAAT, SAW, WYRAT, 写 入 的 值 。 而 调度 
S2: wi(Y); we(Y); we(X); wi(X); w3(X); 
io, BM, T, AT SAW XETRA, BAT, 覆盖 了 它们 的 值 。 因 此 互 不 论 在 
WES, 或 调度 S, 后 具有 相同 的 值 ， 同 样 ，Y 不 论 在 调度 S 或 调度 S, 后 具有 相同 的 值 。 由 于 
S 是 串 行 的 ， 而 对 任何 数据 库 状态 而 言 ，S, RAPS, 一 样 的 效果 ， 所 以 我 们 知道 是 S, TB 
行 化 的 。 然 而 ， 由 于 我 们 不 能 交换 w,(Y) 和 w,(Y)， 并 且 我 们 不 能 交换 wi( 鲜 ) fw, (X), A 
此 我 们 不 能 通过 交换 将 S 转换 为 品行 调度 。 也 就 是 说 ，S, 是 可 串 行 化 的 ， 但 不 是 冲突 可 串 行 
化 的 。 


我 们 可 以 构造 5 的 优先 图 ， 并 判断 其 中 是 否 有 环 来 判断 调度 $ 是 否 冲 突 可 串 行 化 。 如 果 有 ， 
那么 $ 不 是 冲突 可 串 行 化 的 。 如 果 该 图 是 无 环 的 ， 那 么 $ 是 冲突 可 串 行 化 的 ， 而 且 结 点 的 任何 一 
个 拓扑 顺序 2 都 是 一 个 冲突 等 价 的 串 行 顺序 。 

例 7.8 图 7-9 是 无 环 的 ， 因 此 例 7. 7 中 的 调度 5 是 冲突 。 CO- -OO -@ 

可 串 行 化 的 。 与 该 图 相符 的 结 点 顺序 或 事务 顺序 只 有 一 个 : 、 、 
(7, T, To BE, 将 8 转换 成 这 三 个 事务 中 每 一 个 的 所 TO TT RRR 
有 动作 都 按 这 个 顺序 发 生 确实 是 可 能 的 ; 这 一 串 行 顺序 是 : 

S': r1(B); wi(B); r2(A); we(A); r2(B); we(B); r3(4); w3 (A); 
为 了 说 明 我 们 可 以 通过 相 邻 元 素 的 交换 从 3 得 到 5;， 首 先 请 注意 我 们 可 以 将 r (B) ERES 
r,(4) 前 。 接 着 ， 通过 三 次 交换 ， 我 们 可 以 将 w,(8) 移 到 紧 随 r,(B) 的 地 方 ， 因 为 涉及 的 每 个 动 
作 都 是 关于 A 而 不 是 关于 B 的 。 然 后 我 们 可 以 将 r,(B8) 和 w,(B) 移 到 紧 随 w,(4) 的 位 置 ， 移 动 中 
涉及 的 动作 都 是 关于 4 的 ; 结果 是 So 口 

例 7.9 考虑 调度 

S1: ra(A); r1(B); wa(A); r2(B); ra(A); wi(B); walA); w2(B); 

它 和 的 区 别 仅 仅 在 于 动作 7,(B) 被 向 前 移动 了 三 个 位 置 。 查 看 关于 4 的 动作 ， 我 们 仍然 只 能 得 























全 ”无 环 图 的 托 扑 顺序 是 满足 如 下 条 件 的 任何 顺序 : ERM ob, INO PRA Re 在 结 点 前 。 通 过 重复 
地 去 除 在 剩余 结 点 中 没有 前 驱 的 结 点 ， 我 们 可 以 为 任何 无 环 图 找到 一 个 拓扑 顺序 。 
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到 先后 次 序 7, < ;7T3。 但 是 ， 当 我 们 检查 B 时 ,我 们 不 仪 得 到 T, <7, (AA r, (B) Aw, (B) Hw 
在 w,(8) 前 )， 还 得 到 7 < ;7T,( 因 为 r,(8) 出 现在 w,(B) 前 )。 因 此 ,我 们 得 到 图 7-10 中 调度 5， 
的 优先 图 。 





该 图 中 显然 有 环 。 我 们 断定 S 不 是 冲突 可 串 行 化 EDO 
的 。 直 观 地 说 ， 任 何冲 突 等 价 的 串 行 调度 都 必须 既 使 
T, 在 ZT 前 又 使 7 在 7 后， 因而 这 样 的 调度 是 不 存 ”图 7-10 一 个 有 环 的 优先 图 ; 其 调度 不 
在 的 。 口 是 冲突 可 串 行 化 的 


7.23 优先 图 测试 发 挥 作用 的 原因 

如 果 有 一 个 涉及 个 事务 的 环 7T, 一 7T, 一 …7, 一 T,， 那 么 在 假想 的 串 行 调度 中 ，7, 的 动作 必 
须 位 于 T, 的 动作 前 ， 而 T, 的 动作 必须 位 于 T, 的 动作 前 ， 依 此 类 推 , 一 直到 7,。 而 因此 应 该 位 
FT 的 动作 之 后 的 T, 的 动作 却 又 因为 存在 弧 T, T 而 被 要 求 位 于 7 的 动作 之 前 。 因 此 ， 我 们 
的 结论 是 如 果 在 优先 图 中 存在 环 ， 则 该 调度 不 是 冲突 可 串 行 化 的 。 

反 过 来 要 稍微 难 一 些 。 我 们 必须 证 明 只 要 优先 图 中 无 环 ， 那 么 我 们 就 可 以 通过 相 邻 动作 的 
合法 交换 来 改变 调度 中 动作 的 顺序 ， 直 到 调度 成 为 一 个 串 行 调度 。 如 果 我 们 能 做 到 这 一 点 ， 那 么 
我 们 就 能 证 明 任 意 一 个 具有 无 环 优先 图 的 调度 都 是 冲突 可 串 行 化 的 。 我 们 的 证 明 是 对 调度 所 涉 
及 的 事务 数 进行 归纳 。 

基础 ”如 果 m”=1， 即 调度 中 只 有 一 个 事务 ， 那 么 调度 已 经 是 串 行 的 ， 而 因此 也 肯定 是 冲 罕 
可 串 行 化 的 。 

归纳 ” 设 调度 $ 由 了 个 事务 
- T, T, =, T, 

的 动作 构成 。 我 们 假设 S 有 一 个 无 环 的 优先 图 。 如 果 一 个 有 限 图 是 无 环 的 ， 那 么 至 少 有 一 个 绪 点 
没有 到 达 该 结 点 的 弧 ; 设 对 应 于 事务 T, 的 结 点 i 是 这 样 的 一 个 结 点 。 由 于 没有 弧 到 达 结 点 i,，5S 
中 不 可 能 有 这 样 的 动作 4: 

1. BRT, 以 外 的 某 个 事务 To 

2. 位 于 也 的 某 个 动作 前 。 

3. 与 这 个 动作 冲突 。 

因为 如 果 存 在 这 样 的 4， 我 们 应 该 在 优先 图 中 加 入 从 结 点 7 到 结 点 i 的 弧 。 

因此 我 们 可 以 交换 T, 的 所 有 动作 ,保持 它们 的 顺序 ， 但 将 它们 移 到 5 的 最 前 部 。 该 调度 现 
在 具有 如 下 形式 

(T, 的 动作 ) (其 他 -1 个 事务 的 动作 ) 

我 们 现在 考虑 $ 的 后 半 部 分 一 一 7, 以 外 所 有 事务 的 动作 。 由 于 这 些 动 作 保持 了 与 它们 在 $ 
中 相同 的 顺序 ， 除 了 没有 结 点 7 URN BERRY AS, BRB ER AS 的 
一 样 。 

由 于 原始 的 优先 图 是 无 环 的 ， 删 除 结 点 和 弧 不 可 能 使 其 成 为 有 环 的 ， 我 们 断定 后 半 部 分 
的 优先 图 无 环 。 此 外 ， 由 于 后 半 部 分 处 及 n -1 个 事务 ,归纳 假设 对 它 来 说 是 适用 的 。 因 此 ， 
我 们 可 以 通过 相 邻 动作 的 合法 交换 重新 排列 后 半 部 分 中 动作 的 顺序 来 将 其 转换 为 串 行 调度 。 
现在 ，$ 自身 已 经 被 转换 为 了 一 个 串 行 调度 ， 其 中 首先 是 7 的 动作 ， 然 后 跟着 其 他 事务 按照 
某 种 串 行 顺序 的 动作 。 归 纳 证 明 完 成 ， 我 们 的 结论 是 每 个 具有 无 环 优先 图 的 调度 都 是 冲突 可 

串 行 化 的 。 


7.2.4 习题 
习题 7. 2. 1 PREAH ICH AM 的 影响 来 描述 的 两 个 事务 ， 我 们 可 以 假设 数据 库 元 素 4 A B 
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是 整数 。 
Tı: READ(A,t); t:=t+2; WRITE(A,t); READ(B,t); t:=t*3; WRITE(B,t); 
Tz: READ(B,s); s:=s*2; WRITE(B,s); READ(A,s); 8:=8+3; WRITE(A,3) ; 
我 们 假设 不 管 数 据 库 上 的 一 致 性 约束 是 什么 ， 这 些 事 务 在 隔离 的 情况 下 能 够 保持 这 些 约束 。 注 意 , A=B 
不 是 一 致 性 约束 。 
a) 给 出 上 面 12 个 动作 的 一 个 串 行 调度 的 例子 和 ~ 个 非 串 行 调 度 的 例子 。 
b) 这 12 个 动作 共有 多 少 串 行 调 度 ? 
*l1c) 这 12 个 动作 共有 多 少 可 串 行 化 调度 ? 
d) 这 两 个 串 行 顺序 对 数据 库 的 影响 是 相同 的 ， 即 (四 ， 刀 ) 与 (也 ， 九 ) 等 价 。 通 过 给 出 任意 数据 库 初 态 
时 这 两 个 事务 的 结果 ， 说 明 这 一 事实 。 
习题 7. 2.2 ”用 我 们 的 只 给 出 读 写 动作 的 记 法 ， 习 题 7. 2. 1 中 的 两 个 事务 可 以 写作 : 
Ty: 71(A); wi(A); rı(B); wi(B); 
Tz: r2(A); we(A); r2(B); we(B); 
回答 以 下 问题 : 
a) 这 8 个 动作 的 调度 中 ， 有 和 多少 个 等 价 于 操 行 顺序 (7T,，7,)? 
1b) 在 上 述 8 个 动作 的 可 能 的 调度 中 ， 有 多少 个 冲突 等 价 于 品行 顺序 (7T,，7, )? 
Wo) iX 8 个 动作 的 调度 中 ， 有 和 多少 个 等 价 于 (不 一 定 是 冲突 等 价 于 ) 串 行 调度 (7T,，7T,)， 假 设 事 务 具有 习题 
7. 2. 1 中 描述 的 对 数据 库 的 影响 ? 
1d) 为 什么 上 述 (c) 的 答案 与 习题 7.2. 1(e) 的 答案 不 同 ? 
1 习题 7.2.3 假设 习题 7.2.2 中 的 事务 改 为 : 
Ty: rı(A); wi(A); rı(B); wi(B); 
Tz: r2(A); we(A); r2(B); we(B); 
也 就 是 说 ， 事 务 保持 它们 在 习题 7. 2. 1 中 的 语义 , T, 改 为 在 处 理 B 以 前 处 理 4。 给 出 ， 
a) 可 串 行 化 的 调度 数 ， 假 设 事 务 对 数据 库 状态 的 影响 同 习 题 7. 2. 1。 
b) 冲突 可 串 行 化 的 调度 数 。 
! 习题 7. 2.4 解释 怎样 对 任意 n>1 找到 一 个 调度 ， 其 优先 图 中 具有 长 度 为 ”的 环 ， 但 没有 更 小 的 环 。 
习题 7. 2.5 对 以 下 的 每 个 调度 : 
a) wa(A); r1(A); wi(B); r2(B): wa(C); ra(C); 
b) ri(A); r2(A); wi(B); we(B); r1(B); ra(B); wa(C); wi(D); 
c) ri(A); r2(A); 71 (B); r2(B); r3(A); ra(B); wi (A); we(B); 
d) 71(A); r2(A); 73(B); wi (A); ra(C); r2(B); wa(B); w (C); 
e) (A); wi(B); r2(B): we(C); r3(C); wa(A); 


回答 如 下 问题 : 

i 调度 的 优先 图 是 什么 ? 

i 调度 是 冲突 可 串 行 化 的 吗 ? 如 果 是 ， 等 价 的 串 行 调度 有 哪些 ? 
li 是 和 否 有 等 价 的 调度 (不 管事 务 对 数据 做 什么 ) ， 但 又 不 是 冲突 等 价 的 ? 

! 习题 7. 2. 6 如 果 调 度 $ 中 事务 了 的 每 个 动作 都 在 事务 U 的 所 有 动作 之 前 ， 我 们 说 事务 了 位 于 事务 U 前 。 
注意 ， 如 果 7 了 和 U0 是 5 中 仅 有 的 事务 , 那么 说 7 位 于 上 0 前 等 同 于 说 S 是 品行 调度 (7T,，U)。 但是， 如 果 5 
还 涉及 了 和 以 外 的 事务 ,那么 5 可 能 不 是 可 串 行 化 的 ， 而 事实 上 ， 由 于 其 他 事务 的 影响 ， 甚 至 可 能 不 
是 冲突 可 串 行 化 的 。 给 出 一 个 调度 $ 的 例子 ， 满 足 : 

i ESP, T, FT, 前。 
ii. S 是 冲突 可 串 行 化 的 。 
过 .在 每 个 冲突 等 价 于 S 的 串 行 调度 中 ，7, 位 于 7 前 。 
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7.3 使 用 锁 的 可 串 行 化 实现 


这 一 节 中 ， 我 们 考虑 调度 器 最 常用 的 体系 结构 ， 这 种 结构 在 数据 库 元 素 上 维护 “ 锁 ” 以 防止 
非 可 串 行 化 的 行为 。 直 观 地 说 ， 事 务 获得 在 它 所 访问 的 数据 库 元 素 上 的 锁 ， 以 防止 其 他 事务 几乎 
在 同一 时 间 访 问 这 些 元 素 并 因而 引入 非 可 串 行 化 的 可 能 。 

在 这 一 节 中 ， 我 们 用 一 个 (过 于 ) 简单 的 封锁 模式 来 介绍 封锁 的 概念 。 这 种 模式 中 只 有 一 种 
锁 ， 它 是 事务 想 要 在 数据 库 元 素 上 执行 任何 操作 时 都 必须 在 该 数据 库 元 素 上 获得 的 。 在 第 7.4 节 
中 ， 我 们 将 学 习 更 现实 的 封锁 模式 ， 这 样 的 封锁 模式 使 用 多 种 锁 ， 包 括 常 用 的 分 别 对 应 于 读 权 限 
和 写 权限 的 共享 /排他 锁 。 


7.3.1 $i 
在 图 7-11 中 我 们 看 到 一 个 使 用 锁 表 来 协助 自己 工作 的 调度 器 。 回 忆 一 下 ， 调 度 器 的 责任 是 


接受 来 自 事务 的 请 求 ， 或 者 允许 它们 在 数据 库 上 操作 ， 或 者 将 它们 推迟 直到 允许 它们 继续 执行 
是 安全 的 时 候 。 锁 表 用 来 指导 这 一 决策 ， 其 方式 我 们 将 详细 讨论 。 


理想 情况 下 ， 调 度 器 转发 请 求 ， 当 且 仅 当 该 请 Aine 


求 的 执行 不 可 能 在 所 有 活跃 事务 提交 或 中 止 后 使 数 
据 库 处 于 不 一 致 的 状态 。 封 锁 调度 器 像 大 多 数 调度 
器 种 类 一 样 ， 事 实 上 实现 的 是 冲突 可 串 行 化 ， 而 我 
们 已 经 知道 这 是 一 个 比 可 串 行 化 更 苛刻 的 条 件 。 
当 调度 器 使 用 锁 时 ， 事 务 在 读 写 数据 库 元 素 以 
外 还 必须 申请 和 释放 锁 。 锁 的 使 用 必须 在 两 种 意义 
上 都 是 正确 的 ， 一 种 适用 于 事务 的 结构 ， 而 另 一 种 
适用 于 调度 的 结构 。 
© 事务 的 一 致 性 : 动作 和 锁 必须 按 预期 的 方式 发 生 联 系 : 
a) 事 务 只 有 先前 已 经 在 数据 库 元 素 上 被 授予 了 锁 并 且 还 没有 释放 锁 时 ， 才 能 读 或 写 该 数 
据 库 元 素 。 
b) 如 果 事 务 封锁 某 个 数据 库 元 素 ， 它 以 后 必须 为 该 元 素 解 锁 。 
。 调度 的 合法 性 : 锁 必 须 具 有 其 预期 的 含义 : 任何 两 个 事务 都 不 能 封锁 同一 元 素 ， 除 非 其 
中 一 个 事务 已 经 先 释 放 其 锁 。 
我 们 将 扩展 关于 动作 的 记 法 ， 以 加 入 封锁 和 解锁 动作 。 
L(X): 事务 T, 请 求 数据 库 元 素 世 上 的 锁 。 
uj(X): 事务 7, 释放 它 在 数据 库 元 素 下 上 的 锁 ( 解锁 ) 。 
因此 ， 事 务 的 一 致 性 条 件 可 以 表述 为 :“ 只 要 事务 T, 有 动作 7r,(X) 或 w,(X)， 那 么 前 面 必 
然 有 一 个 动作 Li(X)， 且 二 者 之 间 没 有 wu,(X)， 并 且 后 面 将 会 有 一 个 u.(X)。” 调 度 的 合法 性 表 
BN: “WRIA PEATE 1X) A LA), 那么 这 些 动作 之 间 的 某 个 地 方 必然 有 一 个 动作 
u (X) o” 
例 7. 10 ”让 我 们 考虑 在 例 7. 1 中 介绍 的 两 个 事务 7T, 和 7,。 回 忆 一 下 ,7 给 数据 库 元 素 4 和 
Bint 100, mi T, 将 它们 加 倍 。 下 面 是 这 些 事务 的 说 明 ， 我 们 在 其 中 包含 了 锁 的 动作 ， 还 包含 了 
算术 动作 ， 以 帮助 我 们 记 起 这 些 事务 是 做 什么 的 。” 





图 7-11 使 用 锁 表 指导 决策 的 调度 器 


O cH, 事务 实际 的 计算 在 我 们 现在 的 记 法 中 通常 是 不 被 表示 出 来 的 ， 因 为 调度 器 在 决定 是 同意 事务 请 求 还 是 
拒绝 时 并 不 考虑 它们 。 
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Ti: (A); r1(A); A := A+100; wi(A); ui (A); (B); 71(B); B := B+100; 
wi(B); ui(B); 


To: 12(4); ro(A); A := A*2; we(A); ue(A); 12(B); re(B); B := B¥2; w(B); 
u2(B); 


这 些 事务 中 每 一 个 都 是 一 致 的 。 它 们 都 释放 它们 在 4 和 下 上 持 有 的 锁 。 此 外 ， 它 们 对 4 AB 
的 操作 都 只 是 在 前 面 已 经 获得 了 该 元 素 上 的 锁 且 尚未 释放 该 锁 的 那些 步 又 中 。 

















图 7-12 给 出 了 这 两 个 事务 的 一 个 合法 调 三 区 一 让 一 一 一 下 
度 。 为 了 节省 空间 ， 我 们 在 一 行 上 放 了 多 个 动 RARUA, a 35 
作 。 这 个 调度 是 合法 的 ， 因 为 这 两 个 事务 从 未 A v= +100; 
同时 在 4 上 持 有 锁 ， 并 且 对 8 也 一 样 。 具 体 地 miami na | 
W, T, -EFRA T, 执行 w(4) 后 才 执行 (4)， A had 
而 7 一 直 等 到 T, 执行 u (B) AART L (B) | 
正如 我 们 在 所 计算 值 的 序列 中 看 到 的 那样 ， 这 B i= B#2; 

个 调度 尽管 是 合法 的 ， 却 不 是 可 串 行 化 的 。 我 neno OO OOY 5o 
们 将 在 7.3.3 节 中 来 阐述 保证 合法 调度 冲突 可 B := B+100; 
串 行 所 需要 附加 的 条 件 “ 两 阶段 封锁 。 口 wil); u (P); 150 





图 7-12 一 致 事务 的 一 个 合法 调度 ; 但 不 幸 它 不 


7.3.2 封锁 调度 器 ET RIMEN 


基于 封锁 的 调度 器 的 任务 是 ， 当 且 仅 当 请 
求 将 产生 合法 调度 时 同意 请 求 。 如 果 请 求 未 被 同意 ， 发 出 请 求 的 事务 被 延迟 ， 直 到 调度 器 某 时 
刻 同 意 了 该 请 求 。 为 了 帮助 进行 决策 ， 调 度 器 有 一 个 锁 表 ， 对 于 每 个 数据 库 元 素 ， 如 果 其 上 
有 锁 ， 那 么 锁 表 指明 当前 持 有 该 锁 的 事务 。 我 们 将 在 7.5.2 节 更 详细 地 讨论 锁 表 的 结构 。 但 是 ， 
当 像 我 们 目前 为 止 所 假设 的 那样 只 有 一 种 锁 时 ， 该 表 可 以 被 看 作 是 关系 Locks(element transac- 
tion) ， 由 满足 事务 7 当前 具有 数据 库 元 素 X 上 的 锁 的 (X,，7) 对 组 成 。 调 度 器 只 需要 访问 和 修改 
这 一 关系 。 

例 7.11 图 7-12 中 的 调度 是 合法 的 ， 正 如 我 们 提 到 的 那样 ， 所 以 封锁 调度 器 将 按照 所 示 请 
求 到 达 的 顺序 同意 每 个 请 求 。 但 是 ， 有 时 不 能 同意 请 求 。 下 面 是 来 自 例 7. 10 的 AT, RIR 
做 了 简单 的 ， 但 也 是 重要 的 修改 ,其 中 7, 和 都 在 释放 4 上 的 锁 以 前 封锁 B。 

Ty: L(A); 71(A); A := A+100; wi(A); 4(B); u1(A); rı(B); B := B+100; 

wi(B); ui(B); 

Tz: 12(A); ro(A); A := A¥*2; we(A); 12(B); u2(A); r2(B); B := B¥2; wa(B); 

u2(B); 

在 图 7-13 中 ， 当 7 请求 B 上 的 锁 时 ， 调度 器 必须 拒绝 此 封锁 ， 因 为 7 仍 持 有 B 上 的 锁 。 
EE, T, 被 延迟 ， 而 接 下 来 的 动作 是 来 自 7, o SA, T, íT u (B), IEAM B. WE, T, 
可 以 获得 它 在 如 上 的 锁 ， 这 是 在 下 一 步 所 执行 的 。 请 注意 ， 由 于 T, 被 迫 等 待 ， 它 推迟 到 了 给 8B 
加 100 后 再 将 其 乘 2， 因 而 得 到 一 个 一 致 的 数据 库 状 态 。 . 口 


7.3.3 两 阶段 封锁 

有 一 种 条 件 叫做 两 段 锁 (two-phase locking，2PL) ， 在 这 种 令 人 吃惊 的 条 件 下 ， 我 们 可 以 保证 
一 致 事务 的 合法 调度 是 冲突 可 串 行 化 的 。 

。 在 每 个 事务 中 ， 所 有 封锁 请 求 先 于 所 有 解锁 请 求 。 

QPL 中 所 指 的 “两 阶段 "是 获得 锁 的 第 一 阶段 和 放弃 锁 的 第 二 阶段 。 两 阶段 封锁 像 一 致 性 一 
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样 ， 是 对 一 个 事务 中 动作 的 顺序 进行 限制 的 条 件 。 服 从 2PL 条 件 的 事务 被 称 为 两 阶段 封锁 事务 ， 
或 2PL 事务 。 











Ti To A B 
A 

1,(A); 71 (A); 

A := A+100; 

w: (A); h (B); ai (A); 125 
12(4); r2(A); 
A := A*2; 
wa( A); 250 
12(B) 被 拒绝 

71(B); B := B+100; 

wi (B); wu(B); 125 
12(B); u2(A); r2(B); 
B := B*2; 
we(B); ue(B); L 250 











图 7-13 ”封锁 调度 器 推迟 将 导致 非法 调度 的 请 求 


例 7.12 在 例 7. 10 中 ， 事 务 不 遵从 两 阶段 封锁 规则 。 例 如 ， 了 站 在 封锁 B 以 前 解锁 4。 但 
是 ， 在 例 7. 11 中 看 到 的 事务 版 本 确实 遵从 2PL 条 件 。 注 意 , 7, 在 前 五 个 动作 中 封锁 4 MB, FH 
且 在 接 下 来 的 五 个 动作 中 解锁 ; T, 的 行为 类 似 。 如 果 我 们 比较 图 7-12 和 图 7-13， 我 们 可 以 看 到 
两 阶段 封锁 事务 如 何 同 调度 器 进行 正确 的 交互 以 保证 一 致 性 ， 而 非 2PL 事务 允许 不 一 致 的 (因而 
非 冲突 可 串 行 化 ) 行 为 。 口 
7.3.4 两 阶段 封锁 发 挥 作用 的 原因 

直观 地 说 ， 每 个 两 阶段 封锁 事务 可 以 被 认为 是 在 其 提出 第 一 个 解锁 请 求 的 瞬间 完整 执行 ， 
如 图 7-14 所 示 。 与 2PL 事务 的 调度 S 冲突 等 价 的 串 行 调 度 是 事务 顺序 与 其 第 一 个 解锁 顺序 相同 
的 串 行 调度 。 

我 们 将 说 明 如 何 把 由 一 致 的 两 阶段 封锁 事 ee 
务 构 成 的 任意 合法 调度 S 转换 为 冲突 等 价 的 串 行 
调度 。 这 一 转换 最 好 用 $ 中 事务 数 m 上 的 归纳 来 





描述 。 在 下 面 的 内 容 中 ,牢记 冲突 等 价 问题 只 ae 

针对 读 写 动作 是 非常 重要 的 。 一 旦 我 们 将 读 和 时 间 — 

写 串 行 排序 ， 我 们 就 可 以 根据 不 同事 务 的 需要 l 
7-14 每 个 两 阶段 封锁 一 个 可 以 它 

在 它们 周围 加 上 封锁 和 解锁 动作 。 由 于 每 个 事 de 认为 它 

务 在 其 结束 前 释放 所 有 锁 ， 我 们 知道 该 品行 调 

度 是 合法 的 。 


基础 ”如 果 n=1， 没 有 什么 需要 做 的 ; 5 已 经 是 一 个 串 行 调 度 。 

归纳 Bits EAn TES T, T, o, T HET, 是 在 整个 5 中 有 第 一 个 解锁 动作 ， 例 
如 uw.(X)， 的 事务 。 我 们 断言 ,将 7 的 所 有 动作 不 经 过 任何 有 冲突 的 读 或 写 而 向 前 移动 到 调度 
的 开始 是 可 能 的 。 

考虑 了 的 某 个 动作 ， 例 如 w,(Y) 。S 中 这 一 动作 前 可 能 有 冲突 的 动作 ， 例 如 wY)? 如 果 
Al, 那么 在 调度 $ 中 ,wu( 站 和 4( 了 ) 必 然 交错 出 现在 这 样 一 个 动作 序列 中 

“wi; 3 ug (Vp uY wY) 
既然 7 是 第 一 个 解锁 的 ，5 中 u (X UIRE u (YAT; 也 就 是 说 ，S 可 能 形 如 : 
5 wY ti XE); u (Yh (YD); wY) 
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或 w,(X) 其 至 可 能 出 现在 w,(Y) 前 。 不 管 哪 种 情况 ，w,(X) AREL), LERE T, 不 像 我 们 
假定 的 那样 是 两 阶段 封锁 的 。 尽 管 我 们 只 证 明了 冲突 的 写 对 不 存在 ,同样 的 证 明 也 适用 于 任意 
一 对 由 来 自 7 的 一 个 动作 和 来 自 7 的 一 个 动作 构成 的 可 能 冲突 的 动作 。 

我 们 的 结论 是 ， 我 们 确实 能 够 通过 先 使 用 非 冲突 的 读 写 动作 的 交换 ， 然 后 恢复 T, 的 封锁 和 
解锁 动作 ， 将 T, 的 所 有 动作 向 前 移动 到 5 的 开始 。 也 就 是 说 ，S 能 被 写作 如 下 形式 : 

CT, 的 动作 ) (其 他 nm- 1 个 事务 的 动作 ) 

由 n-1 个 事务 构成 的 后 半 部 分 仍然 是 一 致 的 2PL 事务 的 一 个 合法 调度 ， 因 此 归纳 假设 在 其 
上 适用 。 我 们 将 后 半 部 分 转换 为 冲突 等 价 串 行 调度 ， 而 我 们 现在 已 经 证 明 整 个 S 是 冲突 可 串 行 
化 的 。 


7.3.5 习题 
习题 7- 3. 1 下 面 是 两 个 事务 ， 其 中 给 出 了 封锁 请 求 和 事务 的 语义 。 回 忆 一 下 习题 7. 2. 1 中 ， 这 些 事务 具有 
特殊 的 性 质 ， 即 它们 被 调度 的 方式 可 以 是 非 冲突 可 串 行 化 的 ， 但 由 于 其 语义 又 是 可 串 行 化 的 。 
Ti: (A); r(A); A := A+2; wi (A); ui(A); lL(B); rı(B); B := B*3; wi(B); 
ui (B); 
Te: 12(B); r2(B); B := B*2; we(B); u2(B); 12(A); re(A); A := A+3; we(A); 
u2(A); 
在 下 面 的 问题 中 ， 只 考虑 读 写 动 作 的 调度 ， 而 不 要 考虑 封锁 、 解 锁 或 赋值 步骤 。 
a) 给 出 被 锁 禁止 的 调度 的 一 个 例子 。 


8 
1b) 在 8 个 读 写 动作 的 =70 种 顺序 中 ， 有 和 多少 是 合法 的 调度 ( 即 它们 被 锁 所 允许 )? 
4 


!e) 在 那些 合法 的 可 串 行 化 调度 中 ， 有 多 少 是 冲突 可 串 行 化 的 ? 
1d) 在 合法 调度 中 ， 有 多 少 是 可 串 行 化 的 (根据 所 给 事务 语义 )? 
1e) 由 于 AT, 不 是 两 阶段 封锁 的 ， 我 们 能 够 英 见 某 些 非 可 串 行 化 行为 可 能 发 生 。 是 否 有 非 可 种 行 化 的 合 
法 调度 ? 如 果 有 ， 给 出 一 个 例子 ;如 果 没 有 ， 解 释 原 因 。 
! 习题 7. 3. 2 下面 是 习题 7. 3. 1 中 的 事务 ， 但 所 有 解锁 都 移 到 了 末尾 而 使 它们 成 为 两 阶段 封锁 的 事务 。 


Ty: (A); r(A); A := A+2; wi(A); 11(B); 71(B); B := B*3; wi(B); wi1(A); 
ui (B); 


Ta: 12(B); ra(B); B := B*2; we(B); l2(A); r2(A); A := A+3; wa(A); u2(B); 
ua(A); 
这 些 事务 的 所 有 动作 的 合法 调度 有 多 少 ? 
习题 7. 3. 3 对 习题 7.2.5 中 的 每 个 调度 ， 假 设 每 个 事务 刚好 在 读 或 写 每 个 数据 库 元 素 以 前 获得 该 元 素 上 的 
锁 ， 并 且 每 个 事务 在 最 后 一 次 访问 一 个 元 素 后 立即 释放 其 锁 。 说 一 说 封锁 调度 器 对 这 些 调度 中 的 每 一 个 
会 怎么 做 ; 即 哪些 请 求 将 被 推迟 ， 而 什么 时 候 它 们 又 将 被 允许 继续 ? 
! 习题 7. 3. 4 对 下 面 描述 的 每 个 事务 ， 假 设 我 们 为 每 个 被 访问 的 数据 库 元 素 插 人 一 个 封锁 动作 和 一 个 解锁 
动作 。 
a)r(4); w,(A); w,(B). 
b)r,(A); w, (B), 
说 明 如 下 几 种 情况 封锁 、 解 锁 、 读 和 写 动作 各 有 多 少 顺序 : 
i 一 致 的 并 且 两 阶段 封锁 的 。 
ii, 一 致 的 但 不 是 两 阶段 封锁 的 。 
iii, 不 一 致 的 但 是 两 阶段 封锁 的 。 
vi. 既 不 是 一 致 的 也 不 是 两 阶段 封锁 的 。 
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死 锁 的 风险 
两 阶段 封锁 一 个 未 解决 的 问题 是 死 锁 的 可 能 性 ， 即 调度 器 迫使 几 个 事务 永远 地 等 待 另 一 
个 事务 特有 的 锁 。 例 如 ， SRA 中 的 2PL 事务 , 但 将 7 KAM BRE: 
Ty: L(A); rı(A); A := A+100; wi (A); 1(B); wu1(A); rı(B); B := B+100; 
w1(B); ui(B); 


To: 12(B); r2e(B); B := B¥2; we(B); 12(A); ue(B); re(A); A := A*2; 
we(A); ue(A); | 


这 些 事务 动作 一 个 可 能 的 交错 为 : 











L(A); rı (A); | 
l2(B); r2(B); | 

A := A+100; | 
B := B*2; | 

w1(A); 125 | 
w2(B); 50 | 

| 


4(B) 被 拒绝 ”i2(4) 被 拒绝 





现在 ， 两 个 事务 都 不 能 继续 进行 ， 而 它们 将 永远 等 待 。 在 8.2 节 ， 我 们 将 讨论 这 种 情况 
的 补救 方法 。 但 是 ,请 注意 让 两 个 事务 都 继续 进行 是 不 可 能 的 ， 因 为 如 果 我 们 这 样 做 数据 库 
的 最 终 状 态 就 不 可 能 满足 4=B。 











7.4 有 多 种 锁 模 式 的 封锁 系统 


7.3 节 的 封锁 模式 阐明 了 在 封锁 背后 的 重要 思路 ， 但 它 过 于 简单 因而 不 是 一 个 实用 的 模式 。 
主要 的 问题 在 于 ， 事 务 了 即使 只 想 读数 据 库 元 素 民 而 不 写 它 ， 也 必须 获得 让 上 的 锁 。 我 们 不 能 
避 开 锁 的 获得 ， 因 为 如 果 不 获得 ， 当 了 活 有 峻 时 另 一 个 事务 可 能 为 XX 写 人 一 个 新 值 而 导致 非 可 串 
行 化 行为 。 但 另 一 方面 ， 只 要 几 个 事务 都 不 允许 写 X， 不 允许 几 个 事务 同时 读 并 就 是 毫 无 理 
由 的 。 

这 促使 我 们 介绍 最 常用 的 封锁 模式 ， 这 种 模式 中 有 两 种 不 同 种 类 的 锁 ， 一 种 用 于 读 ( 称 作 
“共享 锁 ” 或 “ 读 锁 ”) ,一 种 用 于 写 ( 称 作 “ 排 他 锁 ” 或 “ 写 锁 ”)。 接 着 我 们 要 看 一 种 改进 的 模式 ， 
其 中 事务 允许 获得 共享 锁 并 在 以 后 将 其 “升级 " 为 排他 锁 。 我 们 还 将 考虑 “ 增 量 锁 ”， 它 专门 处 理 
对 数据 库 元 素 进行 增 量 的 写 操作 ;重要 的 区 别 在 于 增 量 操 作 可 交换 ， 而 通常 的 写 操作 并 非 如 此 。 
这 些 例子 把 我 们 引 到 封锁 模式 一 种 使 用 “ 相 容 性 和 矩阵 ”的 通用 记 法 ,“ 相 容 性 矩阵 ”表明 当 数 据 库 
元 素 上 存在 其 他 锁 时 该 数据 库 元 素 上 可 以 被 授予 什么 样 的 锁 。 


7.4.1 共享 锁 与 排他 锁 

在 写 时 我 们 需要 的 锁 比 在 读 时 我 们 需要 的 锁 要 “" 强 ”， 因 为 它 既 禁止 读 又 禁止 写 。 因 此 让 我 
们 考虑 使 用 两 种 不 同类 型 的 锁 一 一 共享 锁 和 排他 锁 一 的 封锁 调度 器 。 直 观 地 说 ， 对 任何 数据 
库 元 素 和 ， 其 上 或 者 可 以 有 一 个 排他 锁 ， 或 者 没有 排他 锁 而 有 任意 数目 的 共享 锁 。 如 果 我 们 想 要 
写 和 ,我 们 需要 有 XX 上 的 一 个 排他 锁 。 可 以 推测 ， 如 果 我 们 想 要 读 针 而 不 写 它 ， 那 么 我 们 倾向 于 
只 获得 共享 锁 。 

我 们 将 使 用 sl,(X) 来 表示 “事务 T, 申请 数据 库 元 素 工 上 的 一 个 共享 锁 ” ， 而 用 xl,(X) 来 表示 
“事务 7, 申请 数据 库 元 素 开 上 的 一 个 排他 锁 " 。 我 们 继续 用 wu,(X) 表 示 T, BX; 即 它 释放 自己 
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在 革 上 持 有 的 不 管 什么 样 的 锁 。 

事务 的 一 致 性 、 事 务 的 2PL 和 调度 的 合法 性 这 三 类 要 求 中 的 每 一 个 在 共享 /排他 封锁 系统 中 
都 有 各 自 的 对 应 关系 。 这 里 我 们 将 这 些 要 求 概括 为 : 

1. 事务 的 一 致 性 。 如 果 不 是 持 有 排他 锁 就 不 能 写 ， 并 且 如 果 不 是 持 有 某 个 锁 就 不 能 读 。 更 
精确 地 说 ， 在 任何 事务 T, 中 : 

a) 读 动作 7,(X) 之 前 必须 有 sl,(X) 或 xl,(X)， 而 且 它 们 中 间 没 有 u,(X), 

b) 写 动作 w,(X) 之 前 必须 有 xl,(X) ， 而 且 它 们 中 间 没 有 wu(X)。 

2. 事务 的 两 阶段 封锁 。 封 锁 必须 在 解锁 之 前 。 更 精确 地 说 ， 对 任意 的 Y， 在 任何 两 阶段 封锁 
事务 7 中， 任何 sl, X) R x, (X) ERT AREA u (Y) BIE. 

3. 调度 的 合法 性 。 一 个 元 素 或 者 可 以 被 一 个 事务 排他 地 封锁 ， 或 者 可 以 被 几 个 事务 共享 地 
封锁 ,但 不 能 二 者 兼 而 有 之 。 更 精确 地 : 

a) iR CX) 出 现在 调度 中 ， 那 么 对 j 关 i， 后面 不 能 再 有 xl,(X) 或 sl,(X) ， 除 非 中 间 间 隔 了 
uw;(X)o 

b) 如果 sli;(X) 出 现在 调度 中 ， 对 于 ji， 那 么 后 面 不 能 再 有 xl (X), ， 除 非 中 间 间 隔 了 (II) 。 

请 注意 ,我 们 允许 一 个 事务 在 同一 个 元 素 上 既 申 请 并 持 有 共享 锁 又 申请 并 持 有 排他 锁 ， 

只 要 它 这 样 做 不 与 其 他 事务 的 锁 发 生 冲 突 。 如 果 事 务 能 预先 知道 自己 对 锁 的 需求 ， 那 么 肯定 

只 会 请 求 排他 锁 ， 但 如 果 锁 的 需求 是 不 可 预测 的 ， 那 么 可 能 事务 在 不 同 的 时 候 申请 共享 锁 和 
排他 锁 。 

例 7.13 让 我 们 看 一 下 使 用 共享 锁 和 排他 锁 时 ， 以 下 是 两 个 事务 的 一 个 可 能 的 调度 : 

Ti: sli(A); 71(A); zl (B); r1(B); wı (B); ui1(A); wi(B); 

Tp: sla( A); r2(A); sl2(B); r2(B); u2(4); u2(B); 

T, AT, RAMB, RAT, 写 B。 二 者 都 不 写 4。 

图 7-15 PX T, AT, 动作 的 一 个 交错 ， 其 中 T, 从 获得 4 上 的 共享 锁 开 始 。 接 着 ，7, 跟随 其 
后 获得 4 和 B 上 的 共享 锁 。 现 在 ,7, 需要 B 上 的 一 个 排他 锁 ， 因 为 它 既 要 读 B 又 要 写 B。 但 是 ， 








它 不 能 获得 排他 锁 ， 因 为 T BAAB LERS z T, 
因此 ， 调度 器 迫使 T, 等 待 。 最 终 T, 释放 B 上 的 锁 。 sl, (A); (A); LA. A: 
这 时 ，7, 才能 得 以 完成。 m outa) iB 


请 注意 图 7-15 中 产生 的 调度 是 冲突 可 串 行 化 的 。 zh (B) 被 拒绝 
TEES Hr AY BAT PE (TL, T), BET 先 开 始 。 al; (B); r (B); w (B); 
我 们 在 7. 3. 4 节 证 明 一 致 性 的 2PL 事务 的 合法 调度 冲 uy (A); u: (B); 

突 可 品行 化 的 论证 也 适用 于 具有 共享 锁 和 排他 锁 的 系 图 7.15 ”使 用 其 享 锁 和 排他 锁 的 一 个 调度 
统 。 在 图 7-15 中 ,在 7 前 解锁 ， 所 以 我 们 能 够 预 
ERBITI P T, 位 于 7 前 。 


7.4.2 WEER 

如 果 我 们 使 用 几 种 封锁 方式 ， 那 么 调度 器 需要 一 个 关于 在 已 知 同一 数据 库 元 素 上 可 能 已 经 
持 有 的 锁 的 情况 下 何 时 能 同意 封锁 请 求 的 策略 。 相 窜 性 短 阵 是 一 个 描述 锁 - 管理 策略 的 简单 方 
法 。 每 个 封锁 方式 有 一 行 和 一 列 。 行 对 应 于 数据 库 元 素 蕊 上 另 一 事务 已 经 持 有 的 锁 ， 而 列 对 应 
于 于 上 申请 的 锁 方 式 。 使 用 相 容 性 矩阵 做 出 锁 授 予 决 定 的 规则 是 : 

。 我 们 能 够 授予 C 方式 的 锁 ， 当 且 仅 当 对 于 其 他 事务 在 X 上 已 经 有 的 每 个 R 方 式 锁 对 应 

每 一 行 R， 在 C 列 上 有 一 个 “是 ”。 
例 7.14 图 7-16 是 共享 锁 (S) 和 排他 锁 (T) 的 相 容 性 矩阵 。 关 于 5 的 列 说 明 如 果 一 个 数 


u2(A); u2(B) 
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据 库 元 素 上 当前 被 持 有 的 锁 只 有 共享 锁 ， 那么 我 们 可 以 授予 该 元 素 上 的 共享 锁 。 关 于 了 的 列 
说 明 只 有 在 当前 其 他 任何 锁 都 不 被 持 有 了 时， 我 们 才 | i 
能 授予 一 个 排他 锁 。 口 x 
T 
7.4.3 WKAR | F 











占有 了 上 的 共享 锁 的 事务 7 对 其 他 事务 来 说 是 
“友好 的 ”"， 因 为 其 他 事务 在 了 被 允许 访问 X 的 同时 也 图 7-16 共 亭 锁 和 排他 锁 的 相 容 性 矩阵 
被 允许 访问 XY。 因 此 ， 我 们 可 能 很 想 知道 如 果 一 个 想 要 读 了 并 写 人 新 值 的 事务 7 首先 获得 上 的 
一 个 共享 锁 ， 而 仅 在 后 来 当 了 准备 好 写 入 新 值 时 将 锁 升 级 为 排他 的 ( 即 除 了 它 在 于 上 已 经 持 有 的 
共享 锁 外 再 申请 世上 的 一 个 排他 锁 ) ， 这 样 做 是 否 更 友好 一 些 。 没 有 理由 阻止 事务 在 同一 数据 库 
元 素 上 对 不 同方 式 的 锁 提 出 申请 。 我 们 沿袭 u (X) 释放 上 事务 7 持 有 的 所 有 锁 的 惯例 ， 尽 管 
在 需要 用 到 的 时 候 我 们 可 以 引 人 与 该 方式 相关 的 解锁 动作 。 

例 7.15 在 下 面 的 例子 中 ,事务 7 可 以 和 7 并 发 地 执行 其 计算 ， 而 如 果 最初 在 B 上 取 
得 排他 锁 的 话 ， 这 是 不 可 能 的 。 这 两 个 事务 是 : 

Tı: sl,(A); rı(4); sl11(B); r1(B); zl (B); wi(B); u (A); u1(B); 

Tz: sl2(A); ra2(4); sl2(B); r2(B); ue(A); ue(B); 

XH, T, 读 4 和 B 并 对 它们 执行 某 种 (可 能 很 元 长 的 ) 计 算 ， 最终 使 用 其 结果 来 为 B 写 人 新 
E. WER, T, SREB 上 的 一 个 共享 锁 ， 而 后 来 ， 当 它 完成 涉及 4 和 8B 的 计算 后 ， 再 申请 B 
的 一 个 排他 锁 。 事 务 也 只 读 4 和 BB， 而 并 不 写 。 

图 7-17 给 出 了 这 些 动作 一 个 可 能 的 调度 。7, 在 了 前 获得 8B 上 的 共享 锁 , 但 在 第 4 行 , 7 也 
能 以 共享 方式 封锁 。 因 此 ,7T, 有 了 4 和 B， 能 够 使 用 它们 的 值 进 行 其 计算 。 只 有 等 到 T, 试图 
将 其 在 B 上 的 锁 升 级 为 排他 的 时 ， 调 度 器 才 必 须 拒绝 这 一 请 求 并 迫使 T SET, BREE B EH 
Mo MEIR, T, 获得 它 在 B 上 的 排他 锁 ， 然 后 完成 。 

WER, WR T, 最 初 在 读 B 前 就 请 求 B 上 的 排他 锁 ， 那么 这 一 请 求 将 被 拒绝 ， 因 为 工 已 经 
A B ERIRE., T, 在 没有 读 到 8 的 情况 下 就 不 能 执行 其 计算 ， 因 此 在 7, 释放 其 锁 后 T, 有 更 多 
的 事情 需要 人 做。 所以， 只 使 用 排他 锁 时 7, 完成 得 比 它 使 用 升级 策略 时 晚 。 o 

例 7. 16 不 幸 的 是 , 不 加 区 别 地 使 用 升级 将 会 引入 新 的 并 且 可 能 更 严重 的 死 锁 。 假 设 T, 和 
T, 分别 读 数据 库 元 素 4， 并 为 4 写 人 新 值 。 如 果 两 个 事务 都 使 用 升级 方法 ， 首 先 获得 4 上 的 共享 
锁 ， 然 后 将 其 升级 为 排他 锁 。 那 么 只 要 人 AT, 几乎 同时 开始 ， 图 7-18 所 示 的 事件 序列 就 将 会 发 
生 。 


























Ty Ta 

al (A); r1(A); 
sla (A); r2(A); 
8l2(B); r2 (B); 

sl, (B); r1(B); Tı 了 2 

zh (B) 被 拒绝 sl; (A) 
u2(A); u2(B) Sly (A) 

zl, (B); wi(B); zh (4) 被 拒绝 

uy (A); u2(B); zla (A) 被 拒绝 

图 7-17 锁 的 升级 允许 更 多 的 并 发 操作 图 7-18 两 个 事务 的 升级 可 能 导致 死 锁 


T, 和 T, 都 能 得 到 4 上 的 共享 锁 。 接 着 ， 它 们 都 试图 升级 到 排他 锁 ， 但 是 由 于 另 一 个 事务 在 
A 上 有 共享 锁 ， 调 度 器 迫使 它们 中 的 每 一 个 都 等 待 。 因 此 ， 二 者 都 不 能 取得 进展 ， 它 们 各 自 都 会 
永远 等 待 ， 或 者 等 到 系统 发 现 死 锁 的 存在 ， 中 止 两 个 事务 中 的 一 个 ,而 给 另 一 个 事务 4 上 的 排 
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他 锁 。 口 


7.4.4 更 新 锁 

通过 使 用 第 三 种 称 为 更 新 锁 的 封锁 方式 ,我们 可 以 避免 例 7.16 中 的 死 锁 问题 。 更 新 锁 
ul,(X) 只 给 予 事务 工读 下 而 不 是 写 蕊 的 权限 。 但 是 ， 只 有 更 新 锁 能 在 以 后 升级 为 写 锁 ; 读 锁 是 
不 能 升级 的 。 当 针 上 已 经 有 共享 锁 时 我 们 可 以 授予 X 上 的 更 新 锁 , 但 是 一 旦 XX 上 有 了 更 新 锁 ， 
我 们 就 禁止 在 上 加 其 他 任何 种 类 ( 共享、 更 新 或 排他 ) 的 锁 。 其 原因 是 ， 如 果 我 们 不 拒绝 这 样 
的 锁 ， 那 么 更 新 者 可 能 由 于 XX 上 总 有 其 他 的 锁 而 永远 没有 机 会 升级 到 排他 锁 。 

这 一 规则 导致 一 个 不 对 称 的 相 容 性 矩阵， 因为 更 新 锁 ( 乙 ) 
在 我 们 申请 它 时 看 起 来 像 共 享 锁 ， 而 当 我 们 已 经 持 有 它 时 看 起 
来 像 排 他 锁 。 因 此 ， 关 于 SMU KAA, RFU AX AT 
同 。 该 矩阵 如 图 7-19 所 示 。9 

例 7.17 更 新 锁 的 使 用 对 例 7.15 不 会 产生 影响 。 作 为 其 第 ”图 7-19 共享 锁 、 排 他 锁 和 更 
3 个 动作 ,7 将 申请 B 上 的 更 新 锁 ， 而 不 是 共享 锁 。 而 更 新 锁 新 锁 的 相 容 性 和 矩阵 
可 以 被 授予 ， 因 为 B 上 被 持 有 的 只 有 共享 锁 ， 与 图 7-17 中 相同 
的 动作 序列 将 发 生 。 

但 是 ， 更 新 锁 解 决 了 例 7. 16 中 的 问题 。 现 在 ，7T, AT, 都 首先 申请 4 上 的 更 新 锁 而 只 在 后 来 
获得 排他 锁 。7T, 和 了 可 能 的 描述 为 : 

Ty: uly(A); 71(A); zh (A); wi(A); (4); 
Tz: ula(A); r2(A); zla(A); we(A); ue(A); 

与 图 7-18 对 应 的 事件 序列 如 图 7-20 所 示 。 现 
在 ,请 求 4 上 的 更 新 锁 的 第 二 个 事务 T, BIE. T, 
被 允许 完成 ， 然 后 T 可 以 执行 。 这 一 封锁 系统 实际 
EET T, MT, 的 并 发 执行 ， 但 在 这 个 例子 中 ， 任 
何 相当 数量 的 并 发 执行 或 者 会 导致 死 锁 ， 或 者 会 导 
致 不 一 致 的 数据 库 状 态 。 g 图 7-20 使 用 更 新 锁 的 正确 执行 


7.4.5 增 量 锁 

另 一 类 有 趣 的 、 在 某 些 情况 下 很 有 用 的 锁 是 “ 增 量 锁 ”。 很 多 事务 都 只 通过 增加 或 减少 存储 
的 值 来 对 数据 库 进 行 操作 。 例 如 ， 一 个 将 钱 从 一 个 银行 账户 转 到 另 一 个 账户 的 事务 。 

增 量 动作 一 个 有 用 的 性 质 是 这 些 动作 相互 之 间 是 可 交换 的 ， 因 为 如 果 两 个 事务 都 给 同一 个 
数据 库 元 素 加 上 常数 ， 谁 先 做 是 无 关 紧要 的 ， man CO mao 
正如 图 7-21 的 数据 库 状 态 转换 图 所 表明 的 那 > 一 
样 。 另 一 方面 ， 增 量 与 读 或 写 都 不 能 交换 ; 如 ee (sais <> 
果 你 在 4 增加 以 前 或 以 后 读 它 ， 得 到 的 值 是 不 
同 的 ， 而 如 果 你 在 其 他 事务 为 4 写 人 新 值 以 前 图 7-21 两 个 增 量 动作 可 交换 ， 因 为 最 终 数 据 库 
或 以 后 增加 4， 你 在 数据 库 中 也 会 得 到 不 同 的 状态 不 依赖 于 哪个 先 做 
Affi. 

让 我 们 将 增 量 动作 作为 事务 中 一 种 可 能 的 动作 引入， 写作 INC(4，c) 。 非 正规 地 表述 ， 这 一 


















Tı T 
ul (A); r1(A); 
ulo(A) 被 拒绝 


ula(A); r2(A); 
zlz(4); we(A); u2(A); 





al, (A); wi (A); 1 (A); 








后 ”但 请 记 住 ， 还 有 一 个 关于 调度 合法 性 的 条 件 在 这 个 矩阵 中 是 没有 反映 出 来 的 : 尽管 我 们 通常 并 不 禁止 一 个 事务 
在 同一 元 素 上 持 有 多 个 锁 ， 在 元 素 下 上 持 有 共享 锁 而 不 是 更 新 锁 的 事务 不 能 被 授予 天 上 的 排他 锁 。 
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动作 将 常数 c 加 到 数据 库 元 素 4 上 ， 我 们 假设 4 是 单独 的 一 个 数 。 请 注意 。 可 以 是 负 的 ， 这 种 情 
况 下 我 们 实际 上 是 在 减少 4。 在 实践 中 ， 我 们 将 INC 施加 到 元 组 的 一 个 组 成 成 分 上 ， 元 组 自身 而 
_ 并非 其 成 分 之 一 是 可 封锁 的 元 素 。 更 正规 一 些 ， 我 们 使 用 INC(4，c) 表 示 以 下 步骤 的 原子 执行 : 
READ(A, t); t: = t+c; WRITE(A, t), 

与 增 量 动 作对 应 ， 我 们 需要 一 个 增 量 锁 。 我 们 将 用 U(X) 表示 T, 请求 闻 上 的 增 量 锁 这 一 动 
Eo HES T, 在 数据 库 元 素 蕊 上 增加 某 个 常数 的 动作 ， 我 们 还 将 使 用 简 记 法 inc,(X) ; 具体 常数 
无 关 紧 要 。 

增 量 动作 和 增 量 锁 的 存在 需要 我 们 对 关于 事务 的 一 致 性 、 冲 突 和 合法 调度 的 定义 做 一 些 修 
改 。 这 些 修改 包括 : 

a) 一 致 的 事务 只 有 在 它 持 有 针 上 的 增 量 锁 时 才能 在 上 进行 增 量 动作 。 但 增 量 锁 并 不 能 赋 
予 读 或 写 动作 的 权力 。 

b) 在 一 个 合法 的 调度 中 ,任何 时 候 都 可 以 有 任意 多 个 事务 在 XX 上 持 有 增 量 锁 。 但 是 ， 如 果 
EA MBSA X LVI, 那么 其 他 事务 同时 在 关上 既 不 能 持 有 共享 锁 又 不 能 持 有 排他 锁 。 
这 些 要 求 可 以 用 图 7-22 的 相 容 性 矩阵 表示 ， 其 中 7 表示 一 个 增 量 方式 的 锁 。 

c) RP ji, inc (X) ERAS 1, (X) 冲突 又 与 w,(X) 冲突 ， 但 与 inc;(X) 不 冲突 。 

例 7. 18 考虑 两 个 事务 ， 每 一 个 都 读数 据 库 元 素 4 然后 增加 B。 

Ty: sh (A); ma (A); ih (B); incı(B); ui1(A); u (B); 

To: sla(A); r2(A); ile(B); ince(B); ua(A); u2(B); 
请 注意 这 些 事务 都 是 一 致 的 ， 因 为 它们 只 在 有 增 量 锁 时 执行 增 量 操作 ， 而 且 只 在 有 共享 锁 时 执 
行 读 操作 。 图 7-23 给 出 T, 和 7 一 种 可 能 的 交错 。TT, 首先 读 4， 但 接着 T, HA 且 增 加 B。 但 是 ， 
T, 在 这 时 允许 获得 它 在 B 上 的 增 量 锁 并 继续 执行 。 

请 注意 ， 在 图 7-23 中 调度 器 不 需要 推迟 任何 请 求 。 例 如 ， 我 们 假设 T, 将 给 B 增 加 4， 而 T, 
将 给 B 增 加 24。 它 们 可 以 按照 两 种 顺序 中 的 任何 一 种 执行 ， 因 为 4 的 值 不 变 ， 因 而 增 量 动作 也 
可 以 按照 两 种 顺序 中 的 任何 一 种 执行 。 








Tı To 
sl (A); rı (A); 








sla(A); r2(A); 
ila(B); ineo(B); 
il, (B); ine: (B); 

u2(A); u2(B); 





(A); w (B); 











图 7-22 KER HESA FNR ee Be A AE E 图 7-23 ”有 增 量 动作 和 增 量 锁 的 事务 调度 
换 名 话说， 我 们 可 以 看 一 看 图 7-23 中 没有 封锁 动作 的 序列 ， 它 们 是 : 
S: rı(A); r2(A); ince(B); ine (B); 
我 们 可 以 把 最 后 一 个 动作 inc, (B 移 到 第 二 个 位 置 ， 因 为 它 与 同一 元 素 的 另 一 个 增 量 动作 不 冲 
突 ， 而 且 肯 定 与 另 一 个 元 素 的 读 动作 不 冲突 。 这 一 系列 交换 表明 $ 冲突 等 价 于 串 行 调度 六 (4) ; 
inc,(B); r,(A); ince,(B8)。 类 似 地 ， 我 们 可 以 通过 交换 把 第 一 个 动作 r,(4) 移 到 第 三 个 位 置 ， 得 
到 一 个 T, Æ T, RARITA. 口 


7.4.6 习题 
习题 7.4.1 对 下 面 事务 T, ` T, 和 T, 的 每 一 个 调度 : 
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a) rı(A); r2(B); ra(C); wı(B); w2(C); w3 (A) 
b) 71(A); r2(B); r3 (C); rı (B); r2 (C); ra(D); w (C); w(D); ws (E) 
c) r1(A); r2(B); r3(C); rı (B); r2(C); r3(4); w (A); we(B); ws(C) 
d) r1(A); r2(B); r3(C); wı (B); we(C); w3(D) 
e) rı(A); ra(B)i r3(C); rı (B); r2(C); r3(D); wi(A); we(B); w3(C) 


做 以 下 各 件 事 情 : 

i 插入 共享 锁 和 排他 锁 ， 并 插入 解锁 动作 。 如 果 一 个 读 动 作 后 没有 同一 事务 对 同一 元 素 的 写 动作 ， 请 在 
该 读 动作 前 紧 靠 它 的 地 方 放 一 个 共享 锁 。 在 其 他 的 每 一 个 读 动 作 或 写 动作 前 放 一 个 排他 锁 。 在 每 个 事 
务 的 末尾 放 上 必需 的 解锁 。 

ii, 说 一 说 支持 共享 锁 和 排他 锁 的 调度 器 运行 每 个 调度 时 会 发 生 什 么 。 

说 . 以 一 种 允许 升级 的 方式 插入 共享 锁 和 排他 锁 。 在 每 个 读 动 作 前 放 一 个 共享 锁 ， 在 每 一 个 写 动 作 前 放 一 
个 排他 锁 ， 并 在 事务 的 末尾 放 上 必需 的 解锁 。 

iv. 说 一 说 支持 共享 锁 、 排 他 锁 和 升级 的 调度 器 运行 (让 ) 中 的 每 个 调度 时 会 发 生 什 么 。 

v 插入 人 共享 锁 、 排 他 锁 和 更 新 锁 以 及 解锁 动作 。 在 每 一 个 不 会 升级 的 读 动作 前 放 一 个 共享 锁 ， 在 每 一 
个 将 升级 的 读 动作 前 放 一 个 更 新 锁 ， 并 在 每 一 个 写 动作 前 放 一 个 排他 锁 。 在 事务 的 末尾 照例 放 上 
解锁 。 

vi. 说 一 说 支持 共享 锁 、 排 他 锁 和 更 新 锁 的 调度 器 运行 (v) 中 的 每 个 调度 时 会 发 生 什么 。 

习题 7. 4.2 对 下 面 的 每 个 调度 ， 在 每 个 动作 前 插入 适当 的 锁 ( 读 、 写 或 增 量 )， 并 在 事务 末尾 插入 解锁 动 

作 。 然 后 说 明 该 调度 在 一 个 支持 这 三 类 锁 的 调度 器 上 运行 时 会 发 生 什 么 。 

a)r,(A); 1(B); inc,(B); ine,(A); w,(C); w,(D) 

b)ine, (A); ine,(B); inc, (B); ine,(C); w,(C); w,(D) 

c)ri (A); r, (B); ine,(B); ine,(C); w,(C); w,(D) 

习题 7. 4.3 在 习题 7. 1.1 中 ， 我 们 讨论 了 关于 航班 预订 的 一 个 假想 事务 。 如 果 事 务 管理 器 可 以 获得 的 锁 包 

括 共 享 锁 、 排 他 锁 、 更 新 锁 和 增 量 锁 ， 那 么 在 事务 的 每 一 步 你 推荐 使 用 什么 锁 ? 

习题 7. 4.4” 乘 上 一 个 常数 因子 的 动作 可 以 用 一 个 它 自己 的 动作 来 建 模 。 假 设 MC(X，e) 表 示 以 下 步骤 的 原 

FHT: READ(X, t); t: =c#t; WRITE(X，:)。 我 们 也 可 以 引入 只 允许 乘 常 数 因子 的 一 种 封锁 方式 。 
a) 给 出 读 、 写 和 乘 常数 锁 的 相 容 性 矩阵 。 

! b) 给 出 读 、 写 、 增 量 和 乘 常数 锁 的 相 容 性 矩阵 。 

1! 习题 7. 4.5 考虑 两 个 事务 : 

Ty: rı(A); rı(B); inei(A); ine, (B); 

Tz: r2(A); r2(B); ince(A); ince(B); 

回答 以 下 问题 ， 

a) 这 些 事务 的 交错 中 有 多 少 是 可 串 行 化 的 ? 

b) 如 果 T, 中 增 量 动作 的 顺序 反 过 来 [ 即 inc, (B) 后 面 是 inc,(4) ] ， 有 多 少 可 串 行 化 的 交错 ? 

! 习题 7. 4. 6 ”为 了 便于 讨论 ， 假 设 数据 库 元 素 是 二 维 向 量 。 我 们 在 向 量 上 可 以 执行 的 操作 有 4 个 ， 每 一 个 有 

它 自己 的 锁 类 型 。 

i, 改变 沿 x 轴 的 值 (X- 锁 )。 

ii, 改变 沿 y 轴 的 值 (了 - 锁 ) 。 

iii, 改变 向 量 的 角度 (4 - 锁 ) 。 

iv. 改变 向 量 的 大 小 (MY - 锁 ) 。 

回答 以 下 问题 。 

a) 哪 些 操 作对 可 交换 ? 例如 ， 如 果 我 们 先 旋转 向 量 使 其 角度 为 120"， 然 后 将 * 坐标 变 为 10， 这 和 先 将 x 
坐标 变 为 10 ， 再 将 角度 变 为 120° 一 样 吗 ? 
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b) 根据 你 对 (a) 的 回答 ， 这 四 类 锁 的 相 容 性 矩阵 是 怎样 的 ? 

1 ce) 假设 我 们 改变 这 四 个 操作 ， 不 是 把 新 的 值 赋 给 一 个 量 ， 而 是 在 量 上 增加 ( 即 “ 在 x 坐标 上 加 10” 或 “ 顺 时 

针 将 向 量 旋转 30"”) 。 这 时 相 容 性 矩阵 又 是 怎样 的 ? 
! 习题 7. 4. 7 这 里 有 一 个 丢失 了 一 个 动作 的 调度 : 

r1(A); r2(B); 77?; wi (OC); we(A) 
你 的 问题 是 要 指出 某 种 类 型 的 什么 操作 可 以 替代 ???， 并 将 使 调度 不 可 串 行 化 。 对 以 下 的 每 类 动作 ， 说 明 
所 有 可 能 的 非 可 串 行 化 替代 : 
a) 读 
b)i 
c) 更 新 
d) 写 


7.5 封锁 调度 器 的 一 种 体系 结构 


看 过 几 种 不 同 的 封锁 机 制 后 ， 我 们 接 下 来 考虑 使 用 这 些 模式 之 一 的 调度 器 如 何 操作 。 在 这 
里 我 们 只 打算 考虑 基于 以 下 几 个 原则 的 一 个 简单 调度 器 : 

1. 事务 自身 不 会 申请 封锁 ， 或 我 们 不 能 依赖 于 事务 做 这 件 事 。 在 读 、 写 以 及 其 他 访问 数据 
的 动作 流 中 插入 锁 的 动作 是 调度 器 的 任务 。 

2. 事务 不 释放 锁 ， 而 是 调度 器 在 事务 管理 器 告诉 它 事务 将 提交 或 中 止 时 释放 锁 。 


7.5.1 插入 锁 动作 的 调度 器 

图 7-24 所 示 为 一 个 由 两 部 分 构成 的 调度 器 ， 它 接受 来 自 事务 的 诸如 读 、 写 、 提 交 以 及 中 
止 这 样 的 请 求 。 调 度 器 维护 一 个 锁 表 ， 尽 管 在 图 中 锁 表 是 作为 二 级 存储 器 数据 ， 但 它 可 能 部 
分 地 或 全 部 位 于 主 丰 中。 通常 ， 锁 表 使 用 的 主 存 不 是 用 于 查询 执行 和 日 志 的 缓冲 池 的 一 部 分 。 
锁 表 是 DBMS 的 另 一 组 成 部 分 ， 并 且 将 像 DBMS 的 其 他 代码 和 数据 那样 由 操作 系统 为 其 分 配 
空间 。 

来 自 事务 

READ(A); WRITE (B) ; 
COMMIT(T); ... 







LOCK(A); READ(A); ... 


READ(A); WRITE(B);... 


图 7-24 在 事务 请 求 流 中 插入 封锁 请 求 的 调度 器 


. 事务 请 求 的 动作 通常 通过 调度 器 传送 并 在 数据 库 上 执行 。 但 是 在 某 些 情况 下 ， 事 务 等 待 一 
个 锁 而 被 推迟 ， 其 请 求 (暂时 ) 不 被 传送 到 数据 库 。 调 度 器 的 两 个 部 分 执行 如 下 动作 : 

L 第 1 部 分 接受 事务 产生 的 请 求 流 ， 并 在 所 有 数据 库 访 问 操作 如 读 、 写 、 增 量 和 更 新 前 插入 
适当 的 锁 动 作 。 数 据 库 访问 操作 接 下 来 被 传送 到 第 I 部分。 不 管 调度 器 使 用 什么 样 的 封锁 模式 
集合 ， 调 度 器 的 第 [部 分 必须 从 其 中 选择 适当 的 封锁 方式 。 
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2. 第 工 部 分 接受 由 第 工 部 分 传 来 的 封锁 和 数据 库 访 问 动作 序 列 ， 并 正确 地 执行 它们 中 的 
每 一 个 。 如 果 第 I 部 分 接收 到 一 个 封锁 或 数据 库 访问 请 求 ， 那 么 它 要 决定 提出 请 求 的 事务 7 
是 否 由 于 某 个 锁 不 能 被 授予 因而 已 经 被 推迟 。 如 果 是 ， 这 个 动作 自身 被 推迟 并 被 加 入 一 个 最 
终 必须 为 事务 了 执行 的 动作 列表 中 。 如 果 了 不 被 推迟 ( 即 前 面 它 所 申请 的 所 有 锁 已 经 被 授予 ) ， 
那么 

a) 如果 动作 是 数据 库 访问 ， 这 一 动作 被 传送 到 数据 库 并 被 执行 。 

b) 如 果 第 工 部 分 收 到 一 个 封锁 动作 ， 它 将 查看 锁 表 以 决定 锁 是 和 否 能 被 授予 。 

i 如 果 是 ， 修 改 锁 表 ,将 刚刚 授予 的 锁 包 括 进去 。 
i 如 果 不 是 ， 那 么 锁 表 中 必须 加 入 一 项 以 表明 该 锁 已 经 被 申请 。 调 度 器 的 第 I RES 
推迟 事务 了 直到 锁 被 授予 时 。 

3， 当 事务 7 提交 或 中 止 时 ， 事 务 管理 器 将 通知 第 I 部 分 ,第 I 部 分 于 是 释放 了 持 有 的 所 有 的 
锁 。 如 果 有 事务 等 待 这 些 锁 中 的 任何 一 个 ,第 I 部 分 将 通知 第 TI BBS. 

4. 当 第 工 部 分 被 告知 某 个 数据 库 元 素 民 上 的 锁 可 以 获得 时 ， 它 决定 接 下 来 能 获得 蕊 上 的 锁 
的 一 个 或 多 个 事务 。 获 得 锁 的 这 个 (或 这 些 ) 事 务 被 允许 尽 可 能 多 地 执行 它们 被 推迟 的 动作 ， 直 
到 它 ( 们 ) 完 成 或 到 达 另 一 个 不 能 被 授予 的 封锁 请 求 。 

例 7. 19 如 果 像 7.3 节 中 那样 只 有 一 种 锁 ， 那 么 调度 器 第 1 部 分 的 工作 很 简单 。 只 要 它 看 见 
数据 库 元 素 钱 上 的 动作 ， 并 且 它 还 没有 为 该 事务 插入 上 的 封锁 请 求 ， 那 么 它 就 插入 这 样 的 一 
个 请 求 。 当 事务 提交 或 中 止 时 ,第 I 部 分 释放 该 事务 的 锁 后 就 可 以 遗忘 关于 该 事务 的 一 切 ， 所 以 
第 1 部 分 所 需要 的 主 存 不 会 无 限 增 长 。 

当 有 几 种 锁 时 ， 调 度 器 可 能 需要 预先 知道 同一 数据 库 元 素 上 将 发 生 什 么 动作 。 让 我 们 用 例 
7.15 中 的 事务 重新 考虑 共享 ~ 排他 - 更 新 锁 的 情况 ， 这 里 我 们 写 这 些 事务 时 没有 给 出 其 中 的 任 
何 锁 ， 

Ty: 71(A); 71(B); wi (B); 

Tz: r2(A); r2(B); 

传 给 调度 器 第 I 部 分 的 消息 不 仪 必须 包括 读 或 写 请 求 ， 还 必须 包括 关于 同一 元 素 上 将 有 动作 
的 指示 。 特 别 地 ， 当 r,(8B) 被 送 来 时 ,调度 器 需要 知道 后 面 会 有 w,(8) 动 作 ( 或 可 能 有 这 样 的 动 
作 ) 。 获 得 这 一 信息 的 方法 有 多 种 。 例 如 ， 如 果 事 务 是 一 个 查询 ,那么 我 们 知道 它 不 会 写 任何 东 
西 。 如 果 事 务 是 一 个 SQL 数据 库 更 新 命令 ， 那 么 查询 处 理 器 能 预先 确定 既 可 能 被 读 又 可 能 被 写 
的 数据 库 元 素 。 如 果 事 务 是 一 个 采用 和 能 人 式 SQL 的 程序 ， 那 么 编译 器 能 访问 所 有 的 SQL 语句 (这 
是 唯一 能 访问 数据 库 的 语句 ) ， 并 且 能 确定 可 能 被 写 的 数据 库 元 素 。 

在 我 们 的 例子 中 ， 假 设 事件 按 图 7-17 的 顺序 发 生 。 那 么 7 首先 发 出 r,(4)。 由 于 将 来 不 会 
将 该 锁 升 级 ， 调 度 器 在 r,(4) 前 插入 sl,(4)。 下 一 步 , AT, 的 请 求 (r,(4) 和 7,(B)) 到 达 调 度 
器 。 由 于 将 来 仍 不 会 有 升级 ， 所 以 第 I 部 分 发 出 动作 序列 sl,(4); r,(4); sl,(B); r,(B)。 

接着 ,动作 r.(B) 以 及 该 锁 可 能 升级 的 警示 信息 到 达 调 度 器 。 调 度 器 第 I 部 分 因此 发 送 
ul, (B); n(B) IRD. 后 者 查阅 锁 表 ， 发 现 它 可 以 把 B 上 的 更 新 锁 授 予 T， 因为 B 上 只 有 
共享 锁 。 

当 动 作 w,(8) 到 达 调 度 器 时 ， 第 工 部 分 发 送 al, (B); w,(8)。 但 是 ， 第 I 工 部 分 不 能 同意 
al, (BR, AB 上 有 一 个 7 WHER. RAT, 的 这 一 动作 以 及 后 续 动 作 被 推迟 ， 第 I BBS 
将 它们 存储 起 来 等 待 将 来 执行 。 最 后 ， 提交 ， 第 I 部 分 释放 T, 持 有 的 4 和 B 上 的 锁 。 这 时 ， 
T BARES B KHM. WARS I 部 分 被 告知 这 一 信息 ， 并 且 它 发 现 xl1(B) 锁 现在 可 以 获 
得 了 。 它 将 此 锁 加 入 锁 表 中 ， 并 继续 最 大 限度 地 执行 存储 的 来 自 T, 的 动作 。 在 这 个 例子 中 ,， 工 
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被 执行 完 。 口 
7.5.2 锁 表 

抽象 地 说 ， 锁 表 是 将 数据 库 元 素 与 有 关 该 元 素 的 封锁 信息 联系 起 来 的 一 个 关系 表 ， 如 图 7- 
25 所 示 。 举 例 来 说 ， 这 个 表 可 以 用 一 个 散 列 表 来 实现 ， 使 用 数据 库 元 素 ( 地 址 ) 作为 散 列 码 。 任 
何 未 被 封锁 的 元 素 在 表 中 不 出 现 ， 因 此 表 的 大 小 只 与 被 封锁 元 素 的 数目 成 正比 ， 而 不 是 与 整个 
数据 库 的 大 小 成 正比 。 

图 7-26 是 我 们 在 锁 表 项 中 所 能 找到 信息 种 类 的 例子 。 这 个 示例 结构 假设 调度 器 使 用 7.4.4 
节 的 共享 -排他 - 更 新 锁 模式 。 图 中 所 示 一 个 典型 数据 库 元 素 4 的 表 项 是 由 以 下 成 分 构成 的 一 
个 元 组 : 








和 A 的 封锁 信息 





图 7-25 锁 表 是 从 数据 库 元 素 到 其 封锁 信息 的 映射 图 7-26 锁 表 项 的 结构 


1. 组 模式 概括 事务 申请 4 上 的 一 个 新 锁 时 所 面临 的 最 苛刻 的 条 件 。 我 们 并 不 是 将 封锁 请 求 
和 同一 元 素 上 其 他 事务 持 有 的 锁 一 个 个 比较 ， 而 可 以 通过 只 比较 请 求 与 组 模式 来 简化 授予 /拒绝 
决定 .在 共享 -排他 -更 新 (SXU) 封锁 模式 中 ， 规 则 很 简单 : 组 模式 : 

a) S 表示 被 持 有 的 只 有 共享 锁 。 

b) 乙 表示 有 一 个 更 新 锁 ， 而 且 可 能 有 一 个 或 多 个 共享 锁 。 

c) 生 表示 有 一 个 排他 锁 ， 并且 没有 其 他 的 锁 。 

其 他 封锁 模式 中 ， 总 是 存在 使 用 组 模式 的 一 个 适当 的 概括 系统 ， 我 们 把 例子 留 作 习 题 。 

2. 等 待 位 说 明 至 少 有 一 个 事务 等 待 4 上 的 锁 。 

3. 一 个 列表 描述 所 有 或 者 在 4 上 当前 持 有 锁 ， 或 者 在 等 待 4 上 的 锁 的 那些 事务 。 每 个 列表 
项 中 的 有 用 信息 可 能 包括 : 

a) 持 有 锁 或 等 待 锁 的 事务 名 。 

b) 该 锁 的 方式 。 

c) 事 务 是 持 有 锁 还 是 等 待 锁 。 

在 图 7-26 中 对 每 一 项 我 们 还 给 出 了 两 个 链接 。 一 个 将 列表 项 自身 链接 起 来 ， 另 一 个 将 一 个 
具体 事务 的 所 有 项 链接 起 来 (图 中 的 Tnext) 。 后 一 个 链接 在 事务 提交 或 中 止 时 会 用 到 ， 以 使 得 我 





O 但是， 封锁 管理 器 必须 处 理发 出 请 求 的 事务 在 同一 元 素 上 已 经 持 有 其 他 方式 的 锁 的 可 能 性 。 例 如 ， 在 所 讨论 的 
SXU 封锁 系统 中 ， 如 果 发 出 请 求 的 事务 在 同一 元 素 上 有 忌 锁 ， 封 锁 管理 器 或 许可 以 同意 其 下 - 锁 请 求 。 在 不 支持 
一 个 事务 在 同一 元 素 上 有 多 个 锁 的 系统 中 ， 组 模式 总 能 为 封锁 管理 器 提供 所 需 信息 。 


226 #- 部 分 RHF RABFTHA 





们 能 比较 容易 地 找到 需要 释放 的 所 有 锁 。 

封锁 请 求 的 处 理 

假设 事务 了 请 求 4 上 的 锁 。 如 果 没 有 4 的 锁 表 项 ， 那 么 肯定 在 4 上 无 锁 ， 于 是 相应 表 项 被 创 
建 并 且 请 求 被 同意 。 如 果 存 在 4 的 锁 表 项 ， 我 们 就 用 它 来 指导 我 们 做 出 有 关 封锁 请 求 的 决定 。 我 
们 找到 组 模式 ， 这 在 图 7-26 中 是 和 或 “更 新 "”。 一 旦 元 素 上 有 更 新 锁 ， 其 他 锁 就 不 能 被 授予 ( 除 
了 了 自己 持 有 忆 锁 和 其 他 与 了 的 请 求 相 容 的 锁 这 一 情况 ) 。 因 此 ，7 的 这 一 请 求 被 拒绝 ， 而 在 列 
表 中 将 加 入 表示 了 申请 锁 ( 其 方式 由 了 的 申请 而 定 ) 的 一 项 ， 并 且 Wait? ="Yes’, 

如 果 组 模式 是 X( 排 他 的 )， 则 同样 的 事情 将 发 生 ， 但 如 果 组 模式 是 S( 共享 的 ) ， 则 另 一 个 共 
享 锁 或 更 新 锁 可 以 被 授予 。 这 种 情况 下 ，7 在 列表 中 的 项 将 有 Wait? = 'No， 并 且 如 果 新 锁 是 更 
新 锁 则 组 模式 被 改 为 U， 否则 组 模式 保持 $。 不 管 锁 是 否 被 授予 ， 新 的 列表 项 通过 Tnext 和 Next 
字段 正确 地 链接 起 来 。 请 注意 ， 不 管 锁 是 否 被 授予 ， 调 度 器 可 以 从 锁 表 得 到 所 需 信息 而 不 必 检 查 
锁 的 列表 。 

解锁 的 处 理 

现在 假设 事务 了 解锁 4。 列 表 中 了 关于 4 的 项 被 删除 。 如 果 了 持 有 的 锁 与 组 模式 不 同 ( 例 如 ， 
T 持 有 5S 锁 ， 而 组 模式 为 UV) ， 则 不 需要 改变 组 模式 。 另 一 方面 ， 如 果 7 的 锁 处 于 组 模式 ， 我们 
可 能 不 得 不 检查 整个 列表 以 找 出 新 的 组 模式 。 在 图 7-26 的 例子 中 ， 我 们 知道 在 一 个 元 素 上 只 能 
有 一 个 更 新 锁 ， 因 此 当 该 锁 被 释放 时 ， 新 的 组 模式 只 能 是 S( 如果 还 存在 共享 锁 的 话 ) 或 什么 也 没 
有 (如 果 当 前 没有 其 他 锁 被 持 有 的 话 )。 如 果 组 模式 是 匀 ， 我 们 知道 不 会 有 其 他 锁 ， 而 如 果 组 模 
式 是 $5， 我 们 需要 判定 是 否 有 其 他 共享 锁 。 

如 果 Waiting 的 值 为 'yes” ， 我 们 需要 授予 申请 锁 列表 中 的 一 个 或 多 个 锁 。 有 几 种 不 同 的 方 
法 ， 它 们 各 有 其 优点 : 

1 先 来 先 服务 。 同 意 等 待 时 间 最 长 的 封锁 请 求 。 这 种 策略 保证 不 会 饶 死 ， 即 一 个 事务 永远 
等 待 锁 的 情况 。 

2. 共享 锁 优 先 。 首 先 授 予 所 有 等 待 的 共享 锁 。 接 着 ， 如 果 有 等 待 的 更 新 锁 ， 则 授予 一 个 更 
新 锁 。 只 在 没有 其 他 锁 等 待 时 才 授 予 排他 锁 。 这 一 策略 允许 等 待 UR X MHBS RH. 

3. 升级 优先 。 如 果 有 一 个 持 有 也 锁 的 事务 等 待 将 其 升级 到 开锁 ， 则 首先 授予 该 锁 。 否 则 ， 
采用 已 经 提 到 的 策略 中 的 一 个 。 


7. 5.3 习题 
习题 7. 5. 1 对 习题 7.2.5 中 的 各 个 调度 ， 说 明 这 一 节 中 描述 的 封锁 调度 器 将 要 执行 的 步骤 。 
习题 7.5.2 锁 表 中 合适 的 组 模式 是 哪些 ， 如 果 使 用 的 锁 方式 为 :; 
a) 共 享 锁 与 排他 锁 。 
1b) 共 享 锁 、 排 他 锁 和 增 量 锁 。 
1 ec) 习题 7.4.6 中 的 封锁 方式 。 


7.6 数据 库 元 素 的 层次 


让 我 们 现在 回 到 我 们 从 7. 4 节 开始 的 对 于 不 同 封锁 模式 的 探索 。 特 别 地 ， 我 们 将 主要 关注 在 
数据 中 存在 树 结构 时 出 现 的 两 个 问题 。 
1. 我 们 遇 到 的 第 一 类 树 结 构 是 可 封锁 元 素 的 层次 结构 。 在 这 一 节 中 ， 我 们 讨论 如 何 才能 既 





龟 ” 我 们 永远 也 不 会 看 到 组 模式 是 “nothing" 的 情况 ， 因 为 如 果 元 素 上 既 没 有 锁 也 没有 锁 请 求 ， 那 么 锁 表 中 就 没有 关 
于 该 元 素 的 项 。 
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允许 大 的 元 素 ， 如 关系 上 的 锁 ， 又 允许 包含 于 其 中 的 较 小 元 素 ( 如 容纳 关系 中 几 个 元 组 的 块 ， 或 
单个 元 组 ) 上 的 锁 。 

2. 并 发 控制 系统 中 另 一 一 类 重要 的 层次 是 本 身 就 组 织 为 一 棵 树 的 数据 。 一 个 重要 的 例子 是 B - 
树 索 引 。 我 们 可 以 将 B - 树 的 结 点 看 作 数 据 库 元 素 ， 但 如 果 我 们 这 样 做 ， 那 么 就 像 我 们 将 在 7.7 
节 中 看 到 的 那样 ， 目 前 为 止 所 研究 的 封锁 模式 性 能 就 会 很 低 ， 而 我 们 需要 使 用 一 种 新 的 方法 。 


7.6.1 多 粒度 的 锁 

回忆 一 下 ， 我 们 故意 地 不 给 出 “数据 库 元 素 " 这 一 术语 的 定义 ， 因 为 不 同 的 系统 用 不 同 大 小 
的 数据 库 元 素 封 锁 ， 例 如 元 组 、 页 或 块 ， 以 及 关系 。 有 的 应 用 受益 于 小 的 数据 库 元 素 如 元 组 ， 而 
另 一 些 使 用 大 的 元 素 时 最 好 。 

例 7.20 ”考虑 银行 的 数据 库 。 如 果 我 们 将 关系 作为 数据 库 元 素 ， 并 因而 对 整个 关系 (如 给 出 
账户 余额 的 关系 ) 只 有 一 个 锁 ， 那么 系统 只 能 允许 极 少 的 并 发 。 由 于 大 多 数 事务 都 将 或 正 或 负 地 
改变 账户 余额 ， 大 多 数 事 务 都 需要 账户 关系 上 的 一 个 排他 锁 。 因 此 ， 同 一 时 间 只 有 一 个 存款 或 取 
款 能 进行 ， 不 管 我 们 有 多 少 处 理 器 可 以 用 来 执行 这 些 事务 。 一 种 比较 好 的 方式 是 给 单独 的 页 或 
数据 块 上 锁 。 这 样 ， 对 应 元 组 位 于 两 个 不 同 块 上 的 账户 就 可 以 同时 被 更 新 ， 提 供 了 系统 中 几乎 所 
有 可 能 的 并 发 。 极 端的 情况 是 为 每 个 元 组 提供 一 个 锁 ， 那 么 不 管 什么 样 的 账户 集合 都 可 以 同时 
更 新 ， 但 这 样 细 的 锁 粒 度 或 许 不 值得 必须 付出 的 特别 大 的 代价 。 

作为 对 照 ， 考 虑 文档 的 一 个 数据 库 。 这 些 文档 可 能 不 时 地 被 编辑 ， 但 大 多 数 事务 将 检索 整个 
文档 。 明 智 的 选择 是 将 整个 文档 作为 数据 库 元 素 。 由 于 大 多 数 事务 是 只 读 的 ( 即 它们 不 会 执行 任 
何 写 动 作 ) ， 封 锁 只 是 为 了 避免 读 一 个 正在 被 编辑 中 的 文档 。 如 果 我 们 使 用 粒度 更 小 的 锁 ， 例 如 
图 、 语 名 或 单词 ， 基 本 上 不 会 带 来 好 处 而 只 会 增加 开销 。 较 小 粒度 的 锁 可 以 支持 的 唯一 的 活动 
是 ， 两 人 同时 修改 文档 的 两 个 不 同 的 部 分 。 口 

一 些 应 用 既 能 使 用 大 粒度 锁 又 能 使 用 小 粒度 锁 。 例 如 ， 例 7. 20 讨论 的 银行 数据 库 显然 需要 
块 级 或 元 组 级 封锁 ， 但 也 可 能 在 某 些 时 候 为 了 审计 账户 (例如 ， 检 查账 户 的 总 和 是 否 正 确 ) 而 需 
要 整个 账户 关系 上 的 锁 。 但 是 ， 为 了 计算 账户 关系 上 的 某 个 聚集 而 获得 该 关系 上 的 一 个 共享 锁 ， 
而 同时 在 单个 的 账户 元 组 上 有 排他 锁 ， 这 很 可 能 导致 非 可 串 行 化 行为 。 原 因 是 聚集 查询 在 读 假 
设 被 冻结 的 关系 拷贝 时 ， 此 关系 事实 上 正在 改变 。 


7.6.2 警示 锁 
解决 管理 不 同 粒度 锁 这 一 问题 的 方法 牵涉 一 种 新 的 锁 ， 称 为 “警示 " 。 这 样 的 锁 在 数据 库 元 
素 形成 典 套 或 层次 结构 时 很 有 用 ， 如 图 7-27 所 示 。 其 中 ， 我 们 可 以 看 到 三 个 级 别 的 数据 库 元 素 : 
1 KERAKKA. 
2. 每 个 关系 由 一 个 或 多 个 块 或 页 组 成 ， 每 个 块 或 页 关系 (r) 
上 存储 了 关系 的 元 组 。 
3. 每 个 块 包含 一 个 或 多 个 元 组 。 
在 数据 库 元 素 的 层次 上 管理 锁 的 规则 由 警示 协议 构 © G3 四 
成 ， 它 既 包 括 “ 普 通 ” 锁 又 包括 “警示 ” 锁 。 我 们 将 描述 普 
锁 是 S$ 和 XX( 共 享 和 排他 ) 时 的 封锁 模式 。 警 示 锁 将 通 G) G) (5) 
过 在 普通 锁 前 加 前 级 1( 意 为 “意向 ”) 表示 ; 例如 IS 表示 图 7-27 层次 组 织 的 数据 库 元 素 
获得 子 元 素 上 的 一 个 共享 锁 的 意向 。 警 示 协 议 的 规则 是 : 
1. 要 在 任何 元 素 上 加 S 或 X 锁 ， 我们 必须 从 层次 结构 的 根 开始 。 
2. 如 果 我 们 处 于 我 们 将 要 封锁 的 元 素 的 位 置 ， 则 不 需要 进一步 查找 。 我 们 请 求 该 元 素 上 的 S 
或 工 锁 。 


元 组 
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3. 如 果 我 们 希望 封锁 的 元 素 在 层次 结构 中 更 靠 下 ,那么 我 们 在 这 一 结 点 上 加 一 个 警示 锁 ; 
也 就 是 说 ， 如 果 我 们 想 要 获得 其 子 元 素 上 的 共享 锁 ， 我 们 请 求 该 结 点 上 的 IS 锁 ， 如 果 我 们 想 要 
获得 其 子 元 素 上 的 排他 锁 ， 我 们 请 求 该 结 点 上 的 殉 锁 。 当 前 结 点 上 的 锁 被 授予 后 ， 我 们 继续 向 
适当 的 子 结 点 (其 子 树 包 含 我 们 希望 上 锁 的 结 点 ) 行 进 。 接 下 来 我 们 适当 地 重复 步骤 2 ERS, 
直到 我 们 到 达 所 需 结 点 。 

为 了 决定 这 些 锁 中 的 一 个 是 否 能 授予 ， 我 们 使 用 图 7-28 的 相 容 性 矩阵 。 为 了 明白 为 什么 这 
个 和 矩阵 是 有 意义 的 ， 我 们 首先 考 锐 IS 列 。 当 我 们 请 求 结 点 N 上 的 13 Bt, RTT RE N K — i 
后 高 。 这 个 意向 唯一 会 产生 问题 的 时 候 是 另外 的 某 个 事务 已 经 声明 了 为 N 表示 的 整个 数据 库 元 














素 写 人 新 拷贝 的 权利 时 ;因此 我 们 在 关于 三 的 行 上 看 到 s z s x 
“ 否 ”。 请 注意 ， 如 果 另 外 的 某 个 事务 只 打算 写 一 个 子 元 Sle 是 是 A 
K, 这 通过 NN 上 的 1X 锁 表明 ， 那 么 我 们 能 够 承受 在 N 授 we fF 是 贰 
予 S 锁 ,而 如 果 写 意向 与 读 意向 恰好 涉及 共同 的 元 素 时 ， xE 8 8 否 
我 们 允许 在 较 低 的 层次 上 解决 冲突 。 


图 7-28 共享 锁 、 排 他 锁 和 意向 锁 的 


现在 考虑 IX 列 。 如 果 我 们 打算 写 结 点 W 的 一 个 子 元 JARAN 


素 ， 那 么 我 们 必须 防止 对 N 所 表示 的 整个 元 素 的 读 和 写 。 
因此 ， 我 们 在 关于 $ 和 互 的 项 中 看 到 “和 否 ”。 但 是 ， 按 照 我 们 对 1S 列 的 讨论 ， 读 或 写 一 个 子 元 素 
的 另 一 个 事务 潜在 的 冲突 可 以 在 该 子 元 素 的 层次 上 解决 ， 所 以 殉 与 上 的 另 一 个 到 或 W 上 的 及 
不 冲突 。 

接 下 来 考虑 5 列 。 读 对 应 于 结 点 N 的 元 素 不 会 与 Y 上 的 另 一 个 读 锁 或 NN 的 某 个 子 元 素 上 的 
读 锁 发 生 冲 突 ， 后 者 由 入 处 的 5 表示 。 因 此 ， 我们 在 关于 S 和 /5 KIERA E”. Ri, X 
或 都 表示 另外 的 某 个 事务 至 少 会 写 由 NN 表示 的 数据 库 元 素 的 部 分 。 因 此 ， 我 们 不 能 授予 读 整 
个 NN 的 权利 ,这 解释 了 5 列 上 为 “ 否 ” 的 项 。 

Bua, 了 列 上 只 有 “ 否 ”。 如 果 男 外 的 某 个 事务 已 经 有 权利 读 写 NN 或 获得 一 个 子 元 素 上 的 读 
写 权 限 ， 我 们 就 不 能 允许 写 整个 结 点 N。 





意向 锁 的 组 模式 

图 7-28 中 的 相 容 性 矩阵 展示 了 我 们 以 前 尚未 见 过 的 关于 封锁 模式 能 力 的 一 种 情况 。 在 前 
面 的 封锁 模式 中 ， 只 要 有 可 能 同时 将 数据 库 元 素 以 愉 或 六 方式 封锁 ， 其 中 一 种 方式 必然 在 这 
样 的 意义 上 优 于 另 一 种 方式 : 只 要 后 者 在 行 或 列 上 有 “ 否 ”"， 那么 前 者 分 别 在 对 应 行 或 列 的 位 
置 上 有 "和 否 " 。 例 如 ， 在 图 7-19 中 ,我 们 看 到 器 优 于 S， 而 卫 优 于 UU 和 和 5。 知道 元 素 上 总 存在 
优势 锁 的 好 处 是 ， 我 们 可 以 用 一 个 组 模式 概括 多 个 锁 的 效果 ， 正 如 7.5.2 节 讨论 的 那样 。 

正如 我 们 从 图 7-28 中 看 到 的 那样 ，S 和 方式 相互 不 优 于 对 方 。 此 外 ， 一 个 元 素 可 能 同 
时 以 3 方式 和 交 方 式 封锁 ， 只 要 这 些 锁 是 同一 个 事务 申请 的 (回忆 一 下 ， 相 容 性 矩阵 中 的 
“和 否 " 项 只 适用 于 其 他 某 个 事务 持 有 的 锁 ) 。 事 务 可 能 申请 这 两 个 锁 ， 如 果 它 希望 读 整 个 元 素 
然后 写 其 少量 的 子 元素 。 如 果 事 务 在 元 素 上 既 有 8 锁 又 有 殉 锁 ， 那 么 它 对 其 他 事务 的 限制 程 
度 是 其 他 的 任 一 个 锁 都 做 不 到 的 。 也 就 是 说 ， 我 们 可 以 设想 另 一 个 封锁 方式 SIE， 它 的 行 和 
列 除 了 关于 1S 的 项 以 外 全 是 “和 否 "” 。 如 果 一 个 事务 有 8 和 IX ARAARA X AR R, 
封锁 方式 SIX 将 充当 组 模式 。 

顺便 说 说 ， 我 们 可 以 设想 在 图 7-22 关于 增 量 锁 的 矩阵 中 发 生 同 样 的 情况 。 也 就 是 说 ， 一 
个 事务 可 以 既 有 $ 方式 的 锁 又 有 了 方式 的 锁 。 但 是 ， 这 种 情况 等 价 于 持 有 站 方式 的 锁 ， 于 是 
| 在 这 种 情况 下 我 们 可 以 使 用 站 作为 组 模式 。 
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例 7.21 考虑 关系 


Movie(title, year, length, studioName) 


让 我 们 假设 有 整个 关系 上 的 锁 和 单个 元 组 上 有 锁 。 接 着 ， 由 查询 

SELECT * 

FROM Movie 

WHERE title = ’King Kong’; 
构成 的 事务 T, 从 获得 整个 关系 上 的 IS 锁 开 始 ， 然 后 该 事务 转 到 单个 的 元 组 (有 3 个 名 字 为 King 
Kong 的 影片 ) ， 并 在 它们 中 的 每 一 个 上 获得 8 锁 。 

现在 ,假设 当 我 们 在 执行 第 一 个 查询 时 ， 事务 T, 开始 ， 它 改变 一 个 元 组 中 的 年 这 一 成 分 


UPDATE Movie 

SET year = 1939 

WHERE title = ’Gone With the Wind’; 

T, 需要 该 关系 上 的 一 个 项 锁 ， 因 为 它 打算 为 其 中 的 一 个 元 组 写 人 新 值 。7' 在 关系 上 的 IS 镇 
是 相 容 的 ， 因 此 锁 被 授予 。 当 7 来 到 关于 Gone With the Wind 的 元 组 ， 发 现 那里 没有 锁 ， 于 是 得 
到 其 闭锁 并 重 写 元 组 。 如 果 T, 试图 在 King Kong 影片 之 一 的 元 组 中 写 入 新 值 ， 它 将 必须 等 到 工 


释放 其 5 锁 ， 因 为 S$ 和 是 不 相 容 的 。 锁 的 集合 如 图 7-29 所 示 。 口 
i T-S 
Tix Movies 


King Kong King Kong King Kong Gone With the Wind 
TS T-S TS T-X 
Æ 7-29 访问 Movie 元 组 的 两 个 事务 被 授予 的 锁 


7.6.3 幻象 与 插入 的 正确 处 理 

当 事 务 创建 一 个 可 封锁 元 素 的 新 的 子 元 素 时 ， 有 时 候 可 能 出 错 。 问 题 在 于 我 们 只 能 封锁 已 
经 存在 的 项 ; 封锁 并 不 存在 但 以 后 可 能 被 插入 的 数据 库 元 素 没有 简单 的 方法 。 下 面 的 例子 说 明 
了 这 一 点 。 

例 7. 22 假设 我 们 有 和 例 7. 21 中 一 样 的 关系 Movie， 而 首先 执行 的 事务 是 7; ， 它 是 查询 

SELECT SUM(length) 

FROM Movie 

WHERE studioName = ’Disney’; 

T, 需要 读 Disney 影片 的 所 有 元 组 ， 所 以 它 可 能 首先 在 Movie 关系 上 获得 IS 锁 ， 并 在 Disney 
影片 的 每 个 元 组 上 获得 S HS 

PAE, BHT, 出现 并 插入 一 个 新 的 Disney 影片 。 看 起 来 似乎 T, 不 需要 锁 ， 但 它 已 经 使 用 
的 结果 不 正确 。 这 一 事实 本 身 并 不 是 并 发 的 问题 ， 因 为 串 行 顺序 (有 ，7 ) 与 真正 发 生 的 等 价 。 
但 是 ， 也 可 能 有 其 他 某 个 mn MT, 都 写 但 7, 先 写 的 元 素 厌 ， 因 此 在 更 复杂 的 事务 中 可 能 有 不 可 串 
行 化 的 行为 。 

为 了 更 精确 地 说 明 ， 假 设 D, MD, 是 原来 已 经 存在 的 Disney BH, T D, Æ T, 插入 的 新 Dis- 
ney BH WL te T, 计算 出 的 Disney 影片 长 度 之 和 ， 并 假设 数据 库 上 的 一 致 性 约束 是 上 应 该 等 于 





OQ ”但 如 果 有 很 多 Disney 影片 ， 则 只 在 整个 关系 上 获得 一 个 5 锁 可 能 效率 更 高 。 
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最 后 一 次 计算 二 时 存在 的 所 有 Disney 影片 长 度 之 和 。 那 么 下 面 是 在 警示 协议 下 合法 的 一 个 事件 
序列 : 


r3(D1); ra(D2); wa( Da); wa(X); wa(L); wa(X); 


这 里 ,我 们 用 w,(D,) 表示 事务 T, 创建 D;。 上 面 的 调度 不 是 可 串 行 化 的 。 特 别 地 , 工 的 值 不 是 
D,, D, 和 疡 ;长度 之 和 ， 而 这 3 个 是 当前 的 Disney 影片 。 此 外 ,XY 具有 由 7， SAME T, SAW 
值 这 一 事实 ， 排 除了 在 假定 的 等 价 串 行 调度 中 7 位 于 T, 前 的 可 能 性 。 口 

例 7.22 中 的 问题 是 ， 新 Disney 影片 有 一 个 幻象 元 组 ， 该 元 组 应 该 被 上 锁 却 没有 上 锁 ， 因 为 
在 获得 锁 时 它 还 不 存在 。 但 是 ， 有 一 种 避免 纪 象 发 生 的 简单 方法 。 我 们 必须 将 元 组 的 播 人 或 删除 
看 作 整 个 关系 上 的 写 操作 。 因 此 ， 例 7. 22 中 的 事务 T, 必须 获得 关系 Movie LAV XB. ATT, 已 
经 以 妈 方式 封锁 了 这 个 关系 ， 而 该 方式 与 方式 不 不 相 容 ，7 必须 等 到 T, 完成 。 


7.6.4 习题 

习题 7. 6. 1 修改 例 7.22 中 动作 序列 ， 使 四 (D,) RA T, 对 整个 Movie 关系 所 做 的 一 个 写 动作 。 接 下 来 给 出 
基于 警示 协议 的 调度 器 针对 此 请 求 序列 的 动作 。 

习题 7. 6.2 ”为 了 有 多 样 性 ， 我 们 考虑 一 个 面向 对 象 的 数据 库 。 类 5C 的 对 象 存在 两 个 块 Bl MB, Eo RB, 
包含 对 象 0 和 0,， 而 块 B, 包含 对 象 0, 0, 和 0:。 类 C 的 对 象 的 全 集 、 块 和 个 别 对 象 构 成 可 封锁 数据 
库 元 素 的 一 个 层次 结构 。 对 下 面 的 请 求 序列 ， 说 明 封 锁 请 求 和 基于 警示 协议 的 调度 器 所 做 反映 构成 的 序 
列 。 你 可 以 假设 所 有 请 求 正 好 在 它们 被 需要 前 发 生 ， 而 所 有 解锁 发 生 在 事务 末尾 。 
a)rı (0s); w(0;); (03); 20(004); 
b)rı(O,); (03); ra(0,); w,(04)3 0005) 
c)r,(0,)3 w,(0.); r (0,); w, (0,4); 
d)r, (O); rm(0,); ra(0,); w (03); w (0,4); w(0s); wi (0); 

I 37.6.3 说明 如 何在 基于 警示 协议 的 调度 器 中 加 入 增 量 锁 。 


7.7 树 协议 


如 7.6 节 一 样 ， 本 节 处 理 树 模式 的 数据 。 然 而 ， 这 里 树 的 结 点 没有 形成 基于 包含 关系 的 层 
次 。 在 一 定 程度 上 ， 数 据 库 元 素 是 不 相交 的 数据 片段 ， 但 到 达 结 点 的 唯一 方式 是 通过 其 父 结 点 ; 
B - 树 是 这 类 数据 的 重要 例子 。 知 道 我 们 必须 沿 着 通 向 元 素 的 特定 路 径 ， 这 给 了 我 们 以 不 同 于 目 
前 为 止 所 看 到 的 两 阶段 封锁 方式 管理 锁 的 重要 自由 。 


7.7.1 基于 树 的 封锁 的 动机 

让 我 们 考虑 B - 树 索引 ， 这 一 系统 中 将 单个 结 点 ( 即 块 ) 看 作 可 封锁 数据 库 元 素 。 结 点 是 正确 
的 封锁 粒度 ， 因 为 将 更 小 的 片段 看 作 元 素 不 会 带 来 好 处 ， 而 将 整个 B - 树 看 作 一 个 数据 库 元 素 阻 
止 了 在 使 用 锁 时 通过 构成 本 节 主 题 的 机 制 所 能 获得 的 那 一 类 并 发 。 

如 果 我 们 使 用 标准 的 诸如 共享 、 排 他 和 更 新 锁 这 样 的 封锁 方式 集合 ， 并 且 使 用 两 阶段 封锁 ， 
IKA B - 树 的 并 发 使 用 几乎 是 不 可 能 的 。 原 因 在 于 ， 每 个 使 用 索引 的 事务 必须 从 封锁 B - 树 根 结 
点 开始 。 如 果 事 务 是 2PL 的 ， 那 么 在 它 不 能 解锁 根 ， 直 到 它 获得 B - 树 结 点 和 其 他 数据 库 元 素 上 
所 有 需要 的 锁 。S 此 外 ， 由 于 原则 上 任何 插入 或 删除 的 事务 可 能 最 终 重 写 B - 树 的 根 ， 事 务 至 少 需 
要 根 结 点 上 的 一 个 更 新 锁 ， 或 更 新 锁 不 能 获得 时 的 一 个 排他 锁 。 因 此 ， 任 何 时 刻 都 只 有 一 个 非 只 
读 的 事务 能 访问 B - 树 。 





日 另外 ， 事务 将 持 有 所 有 锁 直 至 它 准备 提交 ， 这 是 有 充分 的 理由 的 ;， 见 8. 1 节 。 
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但 是 ， 在 大 多 数 情况 下 ， 我 们 几乎 可 以 立即 推断 B - 树 结 点 不 会 被 重 写 ， 即 使 事务 插 人 或 删 
除 元 组 。 例 如 ， 如 果 事 务 插入 一 个 元 组 ,但 我 们 所 访问 的 根 的 子 结 点 并 不 是 全 满 的 ， 那 么 我 们 知 
道 插 入 不 会 向 上 传播 到 根 。 类 似 地 ， 如 果 事 务 删 除 单独 的 一 个 元 组 ， 而 我 们 所 访问 的 根 的 子 结 点 
中 键 和 指针 的 数目 超过 最 小 数目 ,那么 我 们 可 以 肯定 根 不 会 改变 。 

因此 ,一 旦 事务 移 到 根 的 子 结 点 并 观察 到 (非常 常见 的 ) 排除 重 写 根 可 能 性 的 情况 ,我 们 非 
常 乐意 释放 根 上 的 锁 。 同 样 的 发 现 适用 于 B - 树 任何 内 部 结 点 上 的 锁 。 不 幸 的 是 ， 提 早 释放 根 上 
的 锁 会 违背 2PL， 因 此 我 们 不 能 确定 访问 B- 树 的 几 个 事务 的 调度 是 可 串 行 化 的 。 解 决 方法 是 为 
访问 像 B - 树 这 样 的 树 结构 数据 的 事务 采用 专门 的 协议 。 这 一 协议 违背 2PL， 但 使 用 访问 元 素 必 
须 沿 树 向 下 这 样 一 个 事实 来 保证 可 申 行 性 。 


7.7.2 访问 树 结构 数据 的 规则 ， 

以 下 对 锁 的 限制 构成 了 树 协 议 。 我 们 假设 只 有 一 种 锁 ， 由 形式 为 2(Z) 的 封锁 请 求 表示 ， 但 
这 一 思路 可 以 推广 到 其 他 任何 封锁 方式 集合 。 我 们 假设 事务 是 一 致 的 ， 且 调 度 必 须 是 合法 的 ( 即 
调度 器 在 一 个 结 点 上 只 有 与 已 有 锁 不 冲突 时 才 对 该 结 点 授予 锁 来 实施 约束 ) ， 但 事务 上 没有 两 阶 
段 提交 的 要 求 。 

1. 事务 的 第 一 个 锁 可 以 在 树 的 任何 结 点 上 。3 

2. 只 有 事务 当前 在 父 结 点 上 持 有 锁 时 才能 获得 后 续 的 锁 。 

3. 结 点 可 以 在 任何 时 候 解锁 。 

4. 事务 不 能 对 一 个 它 已 经 解锁 的 结 点 重新 上 锁 ， 即 使 它 在 该 结 点 的 父 结 点 上 仍 持 有 锁 。 

例 7.23 图 7-30 给 出 了 结 点 的 一 个 层次 结构 ， 而 图 7-31 说 明 三 个 事务 在 这 一 数据 上 的 动 
作 。 MARA 开始 ， 继 续 向 下 进行 到 B、C 和 D。T, 从 B 开 始 ， 并 试图 移 到 怕 ， 但 其 移动 最 初 由 
于 TD 在 E 上 的 锁 而 被 拒绝 。 BHT, 从 E 开始 并 移 到 玉 和 6G。 请 注意 ,7 不 是 2PL 事务 , 因为 4 














上 的 锁 在 D 上 的 锁 获得 以 前 释放 。 类 似 地 ，7, 不 是 2PL 事务 ， 尽 管 恰好 是 2PL 的 。 oO 
Tı Tz Ts 
1, (A); r(A}; 
1, (B); r1(B); 
1(C); ri(C); 
wy (A); u (A); 
1,(D); ri(D); 
wi(B); u1(B); 
i2(B); ra(B); 
h(E); ra(E); 
w (D); UL (D); 
wi(C); w (C); 
L(E) 被 拒绝 
(a) l3 (F); r3(F); 
wa(F); us(F); 
O (c) is(G); r3(G) 
ws3(E); us(£); 
la(E); ro(E); 
(>) ©) ws(G); us(G) 
we(B); u2(B); 
C) C) wa(B); wa(E); 
图 7-30 “可 封锁 元 素 的 树 图 7-31 3 个 遵循 树 协 议 的 事务 





O 在 7.7.1 节 的 B- 树 例子 中 ， 第 一 个 锁 将 总 在 根 上 。 
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7.7.3 树 协议 发 挥 作用 的 原因 

树 协议 在 调度 中 锁 涉 及 的 事务 上 必然 包含 一 个 串 行 顺序 。 我 们 可 以 定义 先后 次 序 如 下 : 如 
果 在 调度 S'S, FHT, AT, 封锁 一 个 共同 的 结 点 ， 而 T, 先 封锁 该 结 点 ， 我 们 就 说 也 <。7。 

例 7.24 在 图 7-31 的 调度 $ 中， 我 们 发 现 7, AT, 都 封锁 8B， 而 7 先 封锁 。 因 此 7 < ,7,。 
RITEM T, AT, 都 封锁 已 ， 而 T, AB, AIT, <T, (A, ET, AT, 之 间 没 有 先后 次 
序 ， 因 为 它们 不 封锁 共同 的 结 点 。 所 以 ,由 这 些 先 后 次 序 关系 派生 的 优先 图 见 图 7-32 所 示 。 O 

如 果 根 据 我 们 上 面 定义 的 先后 次 序 关系 画 出 的 优先 图 中 没有 环 ， 
那么 我 们 断言 事务 的 任何 拓扑 顺序 都 是 一 个 等 价 串 行 调度 。 例 如 ， ON 
(Ti, Ts, T,) RCTs, T, TIRER 7-31 的 一 个 等 价 串 行 调 度 。 原 O) 
因 在 于 这 样 一 个 串 行 调度 中 所 有 结 点 被 触及 的 顺序 与 它们 在 原始 调 
度 中 一 样 。 

为 了 理解 如 果 遵 循 树 协议 的 话 为 什么 上 面 描述 的 优先 图 必须 总 
是 无 环 的 ， 让 我 们 首先 看 一 看 下 面 的 事实 : 

。 如 果 两 个 事务 有 几 个 二 者 都 要 封锁 的 元 素 ， 那 么 这 些 元 素 被 

封锁 的 顺序 相同 。 

要 知道 为 什么 ， 考 虑 某 两 个 事务 7 和 六， 它们 封锁 两 个 或 更 多 共同 的 项 。 首 先 注意 每 个 事务 
封锁 一 个 形成 一 棵 树 的 元 素 集 合 ， 并 且 两 棵 树 的 交 自 身 也 是 一 棵 树 。 因 此 ，7 和 都 封锁 的 元 素 
中 有 某 个 最 高 的 元 素 ZE。 假设 了 先 锁 工 ， 但 还 有 另外 的 某 个 元 素 了 是 忌 在 了 前 锁 的 。 那 么 在 元 素 
的 树 中 有 一 条 从 到 了 的 路 径 ， 并 且 7 和 U 二 者 都 必须 封锁 沿 着 路 径 的 每 个 元 察 ， 因 为 除非 在 
结 点 的 父 结 点 上 有 锁 ， 否 则 二 者 都 不 能 封锁 该 结 点 。 

考虑 沿 着 这 条 路 径 上 U0 先 封 锁 的 第 一 个 元 素 ， 例 如 说 是 2， 如 图 7-33 所 示 。 那 么 T 比 U 先 
BZ 的 父 结 点 P。 但 是 这 样 当 7T 封 锁 Z 时 它 仍 持 有 P 上 的 锁 ， 因 此 U 在 锁 Z 时 还 没有 锁 P。2Z 不 
可 能 是 UV 与 7 共同 封锁 的 第 一 个 元 素 ， 因 为 它们 都 有 锁 祖先 X( 也 可 能 是 P， 但 不 会 是 Z)。 因 
此 ,UU 锁 Z 必须 等 到 获得 P 上 的 锁 后 ， 这 是 在 T 锁 Z 后 。 我 们 的 结论 是 ， 在 每 一 个 了 和 0U 共同 
封锁 的 结 点 上 , TERE U AT 

RE, 我们 考虑 任意 事务 集合 7, ，7,，…7,， 它 们 x 

D T 先 封锁 


图 7-32 图 7-31 的 调度 所 
派生 的 优先 图 


遵循 树 协 议 并 且 根 据 调 度 S 封锁 树 中 的 某 些 结 点 。 首 
先 ， 封 锁 根 的 那些 事务 按照 某 个 顺序 来 做 这 件 事 ， 并 且 
按照 我 们 刚刚 发 现 的 规则 : 


。 如 果 工 在 7 前 封锁 根 ， 那 么 7, 在 7 前 封锁 每 一 z U 先 封锁 
个 7 与 7 都 要 封锁 的 结 点 。 也 就 是 T,< 7T, 但 
不 是 T <T, 
我 们 可 以 通过 对 树 中 结 点 数 进行 归纳 来 证 明 对 于 整 y U 先 封锁 
WE ES BREET SZSR BAT 图 7-33 AME eRe — RRE 
调度 。 


基础 ”如 果 只 有 一 个 结 点 ， 即 根 ， 那 么 正如 我 们 已 经 观察 到 的 那样 ， 事 务 封锁 根 的 顺序 就 可 
以 承担 这 样 的 角色 。 

归纳 ”如 果树 中 不 止 一 个 结 点 ， 对 根 的 每 一 棵 子 树 考 虑 在 该 子 树 中 封锁 一 个 或 多 个 结 点 的 
事务 集合 。 注 意 ， 封 锁 根 的 事务 可 能 属于 多 棵 子 树 ， 但 不 封锁 根 的 事务 只 会 属于 一 棵 子 树 。 例 
如 ， 在 图 7-31 HES, RAT, 封锁 根 ， 而 它 属于 两 棵 子 树 一 一 以 B 为 根 的 树 和 以 C 为 根 的 
mM. HAM, T, MT, 只 属于 以 B 为 根 的 树 。 
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根据 归纳 假设 ， 封 锁 任 一 子 树 中 结 点 的 所 有 事务 有 一 个 串 行 的 顺序 。 我 们 只 需要 将 不 同 子 
树 的 串 行 顺序 混合 起 来 。 由 于 这 些 事务 列表 中 共有 的 唯一 事务 在 封锁 根 的 那些 事务 ， 而 我 们 已 
经 证 明 这 些 事务 封锁 每 一 个 公共 结 点 的 顺序 都 与 它们 封锁 根 的 顺序 一 样 ， 封 锁 根 的 两 个 事务 不 
可 能 在 两 个 子 列表 中 出 现 的 顺序 不 同 。 具 体 地 说 ， 如 果 T, A T, 出 现在 根 的 某 个 子 结 点 C 的 列表 
中 ， 那 么 它们 封锁 C 的 顺序 与 它们 封锁 根 的 顺序 一 样 ， 故 在 该 列表 中 也 以 该 顺序 出 现 。 因 此 ， 
我 们 可 以 从 封锁 根 的 事务 开始 建立 所 有 事务 的 一 个 串 行 顺序 ， 在 将 这 些 事务 按照 正确 顺序 排放 
后 ， 我 们 把 不 封锁 根 的 那些 事务 按照 某 种 与 其 子 树 的 串 行 顺序 不 冲突 的 顺序 散布 其 中 。 

例 7.25 假设 有 10 个 事务 T, T, To HEERES H T. T, MT, 以 此 顺序 封锁 
根 。 我 们 还 假设 根 有 两 个 子 结 点 ， 第 一 个 被 也 BT, HR, BONET, Ta Tan T 和 To 封锁 。 
假设 第 一 棵 子 树 的 串 行 顺序 是 (也 , T,, T;, T,, Tes 73 ， T,); 注意 这 一 顺序 中 必须 按 顺 序 包括 
Tis T, 和 7T,。 还 假设 第 二 棵 子 树 的 品行 顺序 是 
(1. Th, Tee To. T). MOMENI 7, an OO So P 

<*> o 


在 这 个 序列 中 的 顺序 必然 和 它们 封锁 根 的 顺序 


相同 。 _ `a “ 

这 些 事务 上 的 品行 顺序 受到 的 约束 如 图 7-34 OW 
所 示 。 实 线 表示 由 根 的 第 一 个 子 结 点 导致 的 约束 ， 图 7-34 ”将 子 树 的 串 行 顺 序 组 合成 所 有 事务 的 
而 虚线 表示 第 二 个 子 结 点 中 的 顺序 。(7,,， TT， 串 行 顺序 
T,, T;, T,, T,, To, Tios 7 ， 用 ) 是 该 图 的 众多 拓扑 顺序 中 的 一 个 。 ð 
7.7.4 习题 


习题 7.7. 1 假设 我 们 在 图 3 -13 的 B- 树 上 执行 下 列 动作 。 如 果 我 们 使 用 树 协议 ， 什 么 时 候 我 们 可 以 释放 

名 个 被 搜索 结 点 上 的 写 锁 ? 
a) 插 人 4 了 b) 插 入 30 c)ANBR37 ”dd) 删 除 7 

! 习 题 7.7.2 考虑 在 图 7-30 的 树 上 操作 的 如 下 事务 。 
Ti: 71(A); rı(B); r (E); 
Tz: r2(4); r2a(C); 72(B); 
Ts: r3(B); rs(B); ra(F); 
如 果 调 度 遵循 树 协议 ， 有 几 种 方式 我 们 可 以 交错 : 
a)T, MT, b)T, # T, 1! ec) 三 者 

! 习题 7.7.3 假设 我 们 使 用 具有 分 别 用 于 读 和 写 的 共享 锁 和 排他 锁 的 树 协议 。 要 求 获得 一 个 结 点 上 的 锁 需 要 
持 有 其 父 结 点 上 的 锁 的 规则 2 必须 做 出 修改 ， 以 防止 非 可 串 行 化 行为 。 关 于 共享 锁 和 排他 锁 正 确 的 规则 2 
是 什么 ? 提示 : 父 结 点 上 的 锁 必 须 和 其 子 结 点 上 的 锁 类 型 相同 吗 ? 

! 习 题 7.7.4 假设 有 8 个 事务 T,，T,，…，7T, ， 其 中 序号 为 奇数 的 事务 Ta Ta Ts MT, 按 此 顺序 封锁 树 的 
根 。 根 有 3 DTA, BME. Ta T, 和 按 此 顺序 封锁 ， 第 二 个 被 T、T。 和 7 按 此 顺序 封锁 ， 
第 3 个 被 7, AT, 按 此 顺序 封锁 。 这 些 事务 和 以 上 陈述 一 致 的 串 行 顺序 有 多 少 ? 


7.8 使 用 时 间 戳 的 并 发 控制 


接 下 来 ,我 们 将 考虑 封锁 以 外 的 、 某 些 系 统 中 用 来 保证 事务 可 串 行 性 的 两 种 方法 : 

1. 时 间 蕉 。 为 每 个 事务 分 配 一 个 “时 间 戳 ” 。 记 录 上 次 读 和 写 每 个 数据 库 元 素 的 事务 时 间 稚 ， 
将 这 些 数 值 与 事务 时 间 惟 比较， 根据 事务 的 时 间 戳 以 确保 串 行 调度 等 价 于 实际 事务 的 调度 。 该 
方法 是 本 节 的 内 容 。 

2. 有 效 性 确认 。 当 要 提交 一 个 事务 时 ， 检查 事务 和 数据 库 元 素 的 时 间 稚 ， 这 一 过 程 被 称 为 
事务 的 < 有效 性 确认 ”。 根 据 事务 的 有 效 性 确认 时 间 排列 的 串 行 调度 必须 等 同 于 实际 调度 。 验 证 
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方法 将 在 7.9 节 中 讨论 。 . 

这 两 种 方法 都 假设 没有 非 可 串 行 化 行为 发 生 ， 并 且 只 在 违例 很 明显 时 做 修复 ， 在 这 个 意义 
上 它们 是 乐观 的 。 与 此 相反 ， 所 有 封锁 方法 假设 如 果 不 预防 事务 隐 和 人 非 可 串 行 化 行为 中 ， 事 情 就 
会 出 错 。 乐 观 的 方法 不 同 于 封锁 的 地 方 在 于 ， 当 确实 发 生 问题 时 唯一 的 补救 措施 是 中 止 并 重启 
试图 参与 非 可 串 行 化 行为 的 事务 。 与 此 相反 ， 封 锁 调 度 器 推迟 事务 ， 但 不 中 止 它们 .2 通常 ， 当 
很 多 事务 只 读 时 乐观 的 调度 器 比 封锁 好 ， 因 为 这 些 事务 自己 永远 不 会 导致 非 可 申 行 化 行为 。 


7.8.1 WAR 

为 了 使 用 时 间 惟 作为 并 发 控制 方式 ， 调 度 器 需要 赋 给 每 个 事务 T —AE— iR, MR R 
TS(T) 。 时 间 惟 必须 在 事务 首次 通知 调度 器 自己 将 开始 时 按 升序 发 出 。 产 生 时 间 戳 的 两 种 方 
法 是 : 

a) 我 们 可 以 使 用 系统 时 间作 为 时 间 礁 ， 只 要 调度 器 操作 不 会 快 到 在 一 个 时 钟 周 期 内 给 两 个 
事务 赋予 时 间 戳 。 

b) 调度 器 维护 一 个 计数 器 。 每 当 一 个 事务 开始 时 ， 计 数 回 加 1 ， 而 新 的 值 成 为 该 事务 的 时 间 
锥 。 这 种 方法 中 ， 时 间 改 与 “时 间 ” 无 关 ， 但 它们 具有 任何 时 间 愤 产生 系统 都 需要 的 重要 性 质 : 
开始 较 晚 的 事务 比 开 始 较 早 的 事务 具有 的 时 间 惟 要 高 。 

不 管 使 用 什么 时 间 翼 产生 方法 ， 调 度 器 都 必须 维护 当前 活跃 事务 及 其 时 间 蕉 的 一 张 表 。 

为 了 使 用 时 间 惟 来 作为 并 发 控制 方式 ， 我 们 需要 将 每 个 数据 库 元 素 忆 与 两 个 时 间 戳 以 及 一 
个 附加 的 位 联系 起 来 : 

1. RT(X), 天 的 读 时 间 ， 它 是 读 站 的 事务 中 最 高 的 时 间 惟 。 

2. WT(X), XHSHM, CES X HSS PRN AR. 

3. C(X) ,大 的 提交 位 ， 该 位 为 真 ， 当 且 仅 当 最 近 写 下 的 事务 已 经 提交 。 这 一 位 的 目的 是 为 
了 避免 出 现 事 务 了 读 另 一 事务 U 所 写 数据 然后 0 中 止 这 样 的 情况 。7 脏 读 “ 未 提交 数据 ”这 一 个 
问题 肯定 有 可 能 导致 数据 库 状态 变 得 不 一 致 ， 而 任何 调度 器 都 需要 防止 脏 读 的 机 制 。 


7.8.2 事实 上 不 可 实现 的 行为 

为 了 理解 时 间 截 调度 器 的 体系 结构 和 规则 ， 我 们 需要 记 住 : 调度 器 假设 事务 的 时 间 惟 顺序 
也 必须 是 它们 看 起 来 执行 的 串 行 顺序 。 因 此 ， 调 度 器 的 任务 除了 分 配 时 间 惟 和 更 新 数据 库 元 素 
的 RT、WT 和 C 外 ， 还 要 检查 是 否 在 读 写 发 生 的 任何 时 候 ， 如 果 每 个 事务 在 对 应 其 时 间 戳 的 那 一 
刻 瞬 时 执行 的 话 ， 事 实 上 发 生 的 事 可 能 会 发 生 。 如 果 不 是 ， 我 们 说 这 一 行为 是 事实 上 不 可 实现 
的 。 可 能 发 生 的 问题 有 两 类 : 

1. 过 晚 的 读 ; 事务 了 试图 读数 据 库 元 素 X， 但 站 的 写 时 间 表 明 半 现 有 的 值 是 7 理论 上 执行 
以 后 写 人 的 ; 即 TS(T) < WT(X)。 图 7-35 说 明了 这 一 问题 。 水 平 轴 表 示 事 件 发 生 的 实际 时 间 。 
虚线 将 实际 的 事件 与 其 理论 上 发 生 的 时 间 ( 即 执行 事件 的 事务 的 时 间 惟 ) 连 起 来 。 因 此 ， 我 们 看 
到 事务 在 事务 了 后 开始 ， 但 在 T 读 X 前 为 xX 写 入 一 个 值 。7 应 该 不 能 读 U 写 人 的 值 ， 因 为 理 
论 上 U 在 T 后 执行 。 但 是 ,7 别 无 选择 ， 因为 0 关于 XX 的 值 总 全 现在 所 看 到 的 。 遇 到 这 一 问题 
时 ， 解 决 办 法 是 中 止 7。 

2. 过 晚 的 写 : 事务 了 试图 写 数据 库 元 素 X。 但 是 , 的 读 时 间 表 明 另 外 的 某 个 事务 应 该 读 到 
T 写 和 人 的 值 但 却 读 到 另外 的 某 个 值 。 也 就 是 WT(X) < TS(T) < RT(X)。 图 7-36 说 明 这 一 问题 。 
其 中 我 们 看 到 事务 0 在 事务 7 后 开始 ,但 在 了 有 机 会 写 半 前 读 X。 当 了 试图 写 关 时 ， 我 们 发 现 





O ”这 并 不 是 说 使 用 封锁 调度 器 的 系统 永远 不 会 中 止 事务 ; 例如 ，8. 2 节 讨论 中 止 事务 以 修复 死 锁 。 但 是 ， 封 锁 调 度 
器 从 不 简单 地 把 中 止 事务 当 作 封 锁 请 求 不 能 被 同意 时 的 回应 。 
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RT(X) > TS(7) ,意味 着 了 已 经 被 一 个 理论 上 在 了 后 执行 的 事务 U 所 读 。 我 们 还 发 现 WT(X) < 
TS(7) ， 意 味 着 没有 其 他 事务 往 了 中 号 人 能 覆盖 7 所 写 值 的 值 ， 因 此 取消 7 将 其 值 写 人 这 一 任 
务 , 使 0U 能 读 它 。 


USX UX 





T 开始 U 开始 T 开始 U 开始 | 
图 7-35 事务 T 试 图 做 过 晚 的 读 图 7-36 事务 了 试图 做 过 晚 的 读 


7.8.3 及 数据 的 问题 

提交 位 的 设计 是 为 了 帮助 解决 一 类 问题 。 这 些 问 题 中 的 一 个 是 “ 脏 读 ”， 如 图 7-37 所 示 。 其 
中 ,事务 T 读 X， 而 最 近 是 被 U0 写 和 的。U 的 时 间 惟 小 于 了 的 时 间 戳 ， 且 在 实际 中 了 的 读 发 生 
在 UU 的 写 之 后 ， 因 此 这 一 事件 看 来 在 事实 上 是 可 实现 的 。 但 是 ， 有 可 能 在 7T 读 UVU 写 人 的 站 值 后 ， 
事务 U 中 止 ; 或 许 是 U 在 自己 的 数据 中 遇 到 了 一 个 错误 的 情况 ， 如 除 0， 或 许 像 我 们 将 在 7. 8. 4 
节 看 到 的 那样 ， 调 度 器 由 于 事务 局 试图 做 事实 上 不 可 实现 的 事 而 将 其 中 止 。 因 此 ， 尽 管 关于 了 
读 工 并 没有 什么 是 事实 上 不 可 实现 的 ， 最 好 将 了 的 读 推 迟到 U 提交 或 中 止 后 。 我 们 可 以 断定 U 
尚未 提交 ， 因 为 提交 位 C(X) 为 假 。 

另 一 个 潜在 的 问题 如 图 7-38 Bras, AP, ARTS URG X, TARSAT, 
正确 的 动作 是 什么 也 不 做 。 显 然 不 会 有 男 一 个 事务 V 应 该 读 7 的 了 X 值 却 读 到 0U 的 值 ， 因 为 如 果 V 
试图 读 怨 ， 它 将 因为 过 晚 的 读 而 中 止 。 以 后 对 VV 执行 的 读 将 需要 0 的 值 或 一 个 更 晚 写 入 的 站 
值 ， 而 不 是 7 了 的 。 这 一 想法 ， 即 写 操 作 在 写 时 间 更 上 晚 的 写 操作 已 发 生 时 可 以 被 跳 过 ， 称 为 Thomas 
写法 则 。 

UX USX 





TX 





U 开始 ”开始 U Pik TF U 开始 7 提交 U 中 止 
图 7-37 如果 了 在 所 示 时 候 读 总 则 可 能 图 7-38 写 操作 由 于 一 个 具有 较 上 晚 时 间 戳 的 写 操作 
进行 的 是 脏 读 , 被 取消 ， 而 执行 的 事务 此 后 中 止 


但 是 ，Thomas 写法 则 有 一 个 潜在 的 问题 。 如 果 像 图 7-38 所 示 的 那样 ，U 后 来 中 止 ， 那么 它 
的 站 应 该 被 删 掉 ， 并 且 前 一 个 值 和 写 时 间 应 该 被 恢复 。 由 于 T 已 提交 ， 看 起 来 似乎 了 所 写 和 人 的 久 
值 应 该 是 以 后 读 到 的 值 。 但 是 ， 我们 已 经 跳 过 了 的 写 而 且 损 坏 已 经 来 不 及 修复 了 。 
尽管 有 多 种 处 理 上 述 问题 的 方法 ,我 们 将 采用 一 个 相对 简单 的 策略 ， 它 基于 下 面 假设 的 基 
于 时 间 戳 的 调度 器 所 具有 的 能 力 。 
。 当 事 务 了 写 数 据 库 元 素 人 时 ， 写 是 “尝试 性 的 ”"， 且 在 7 了 中 止 时 可 以 被 撤销 。 提 交 位 C(X) 
被 设 为 假 ， 调 度 器 保存 互 的 旧 值 和 原 有 WT(X) 的 一 个 拷贝 。 


7.8.4 基于 时 间 稚 调度 的 规则 
我 们 现在 可 以 概括 使 用 时 间 戳 的 调度 器 为 了 保证 不 会 发 生 事实 上 不 可 实现 的 事 所 必须 遵守 
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的 规则 。 作 为 对 来 自 事务 了 的 读 写 请 求 的 反应 ， 调 度 器 可 以 有 如 下 选择 ， 

a) 同 意 请 求 。 

b) 中 止 7Z( 如 果 了 违背 现实 ) 并 重启 具有 新 时 间 戳 的 7( 中止 再 加 上 重启 常 称 为 回 滚 ) 。 

e) 推 迟 7， 并 在 以 后 决定 是 中 止 7 还 是 同意 请 求 (如 果 请 求 是 读 并 且 此 读 可 能 是 脏 的 ， 正 如 
7. 8.3 节 那 样 ) 。 

规则 如 下 : 

1. 假设 调度 器 收 到 请 求 r,(X) 。 

a) 如 果 TS(7T) 宇 WT(X)， 此 读 是 事实 上 可 实现 的 。 

i 如 果 C( 如 为 真 ， 同意 请 求 。 如 果 TS(T) > RT(X), 置 RT(X): = TS(T); 否则 不 改变 RIT(X)。 
ii, WR C(X) 为 假 ， 推 迟 了 直到 C(X) 为 真 或 写 互 的 事务 中 止 。 

b) 如 果 TS(T) < WT(XE) ， 此 读 是 事实 上 不 可 实现 的 。 回 滚 7; 即 中 止 了 并 以 一 个 新 的 更 大 
的 时 间 稚 重启 它 。 

2. 假设 调度 器 收 到 请 求 wj(X) 。 

a) 如 果 TS(7T) 宇 PT(X)， 并 且 TS(7) >>WT(X)， 此 写 是 事实 上 可 实现 的 并 且 必 须 执行 。 

i WX BARE. 
i. BWT(X): =TS(T). 
iii. CCX): =false, 

b) 如 果 TS(7) >RT(X), 但 是 TS(T) < WT(T)， 此 写 是 事实 上 可 实现 的 , 但 XY 中 已 经 有 一 个 
更 晚 的 值 。 如 果 C(X) 为 真 ， 那么 前 一 个 的 写 已 经 提交 ， 我 们 只 要 忽略 7 的 写 ; 我 们 允许 7 不 对 
数据 库 做 任何 改变 而 继续 进行 下 去 。 但 是 ， 如 果 CC(X) 为 假 ， 那 么 我 们 必须 像 1(a)ii 中 那样 推迟 To 

c) 如 果 TS(T) < RT(X)， 那 么 此 写 是 事实 上 不 可 实现 的 ， 而 了 必须 被 回 深 。 

3. 假设 调度 回收 到 提交 了 的 请 求 。 它 必须 (使 用 调度 器 维护 的 一 个 列表 ) 找到 了 所 写 的 所 有 
数据 库 元 素 和 ， 并 置 C(X) : =trnoe。 如 果 有 任何 等 待 X 被 提交 的 事务 (从 调度 器 维护 的 另 一 个 列 
表 中 找到 ) ， 这 些 事务 被 允许 继续 进行 。 

4. 假设 调度 器 收 到 中 止 7 的 请 求 ， 或 决定 像 在 1b 和 2c 中 那样 回 滚 T。 那 么 任何 等 待 了 所 写 
元 素 的 事务 必须 重新 尝试 读 或 写 ， 看 这 一 动作 现在 7 的 写 被 中 止 后 是 否 合法 。 

例 7.26 图 7-39 给 出 了 的 3 个 事务 7T,、7, 和 7 的 一 个 调度 ， 这 3 个 事务 访问 3 个 数据 库 元 
素 4、B 和 C。 事 件 发 生 的 实际 时 间 照 常 随 页 面向 下 而 增 大 。 但 是 ， 我 们 还 指明 了 事务 的 时 间 稚 
以 及 元 素 的 读 写 时 间 。 在 开始 时 ， 每 个 数据 库 元 素 具 有 的 读 时 间 和 写 时 间 均 为 0。 事务 的 时 间 惟 
是 在 它们 通知 调度 器 自己 开始 执行 时 获得 的 。 请 注意 ， 尽 管 也 执行 第 一 个 数据 访问 ， 它 并 不 有 具 
有 最 小 的 时 间 稚 。 假 设 T, 第 一 个 通知 调度 器 自己 开始 执行 ， 接 着 是 7,， 而 7 最 后 开始 。 

在 第 一 个 动作 中 ，7, 读 8。 由 于 8 的 写 时 间 小 于 7 的 时 间 惟 ， 此 读 在 事实 上 可 实现 因而 允 
许 发 生 。8B 的 读 时 间 被 置 为 7, 的 时 间 稚 200。 第 2 和 第 3 个 读 动 作 类 似 地 是 合法 的 ， 导 致 各 数据 
FOREN ARE ALES NR, 

在 第 4 步 , 7 写 B。 由 于 妖 的 写 时 间 不 大 于 闷 WEAR, KSPR, ARH 
写 时 间 不 大 于 7 的 时 间 截 ， 我 们 必须 真正 执行 此 写 。 我 们 这 样 做 时 ， 刀 的 写 时间 增 加 到 200， 即 
执行 写 操作 的 事务 T ATR. 

ETE, T, 试图 写 C。 但 是 ，C 已 经 被 事务 T, PM, T, 理论 上 的 执行 时 间 是 175, m T, K 
在 时 间 150 写 它 的 值 。 因 此 ，7 试图 做 的 事 将 导致 事实 上 不 可 实现 的 ， 因 而 T, 必须 回 滚 。 

最 后 一 步 7, GA. HA 的 读 时 间 150 小 于 7 的 时 间 锥 175， 此 写 是 合法 的 。 但 是 ,已 经 有 
一 个 较 晚 的 4 值 存储 在 该 数据 库 元 素 中 ， 即 由 7T 理论 上 在 时 间 200 SARA. Auk, T, RER, 
但 它 也 不 写 入 自己 的 值 。 口 
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图 7-39 3 SBS ERE TN TBD BR A A EE PT 


7.8.5 多 版 本 时 间 戳 

时 间 栽 的 一 个 重要 变 体 除 了 维护 数据 库 元 素 当 前 的 、 存 储 在 数据 库 自 身 中 的 版 本 外 ， 还 维 
护 数据 库 元 素 的 旧版 本 。 目 的 是 允许 其 他 情况 下 将 导致 事务 了 中 止 (由 于 了 的 当前 版 本 应 在 了 以 
后 写 人 ) 的 读 操作 r (X) 继续 进行 ， 这 是 通过 让 具有 了 时 间 戳 的 事务 读 适 合 它 的 发 的 版 本 来 达到 
的 。 如 果 数 据 库 元 素 是 块 或 页 ， 这 种 方法 特别 有 用 ， 因 为 这 时 所 需 做 的 只 是 让 缓冲 区 管理 器 在 主 
存 中 容纳 对 当前 活跃 的 某 个 事务 来 说 可 能 有 用 的 某 些 块 。 

例 7.27 考虑 图 7-40 所 示 访 问 数据 库 元 素 4 的 事务 集合 。 这 些 事务 在 茜 于 时 间 蕉 的 普通 
调度 器 下 操作 ， 且 当 RERAN, CAA WT(4) 比 自己 的 时 间 截 大 ， 因 此 必须 中 止 。 但 
Æ, 4 有 一 个 由 了 T 写 人 而 被 7 覆盖 的 旧 值 适合 T A; 4 的 这 一 版 本 写 时 间 为 150， 它 小 于 
T, 的 时 间 惟 175。 如 果 A 的 这 一 旧 值 可 以 获得 ，7, 就 可 以 被 允许 去 读 它 ， 尽 管 它 不 是 4 的 “ 当 
BU” fH. 口 

多 版 本 时 间 蕉 调度 器 与 7. 8.4 节 所 述 调度 器 的 差别 有 以 下 几 个 方面 : 

1， 当 新 的 写 w;( 了 XX) 发生 时 ， 如 果 它 合法 ， 那 么 数据 库 元 素 的 一 个 新 版 本 被 创建 。 其 写 时 
间 为 TS(7) ,并 且 我 们 将 用 X, 来 指 代 它 ， 其 中 :1=TS(7)。 

2. 当 读 r,(X) 发 生 时 ,调度 器 找到 XX 的 版 本 XX， 它 满足 :<TS(T) ， 并 且 不 存在 满足 上 < 了 大 
TS(7) 的 版 配 ,。 也 就 是 说 ， 怡 好 在 了 理论 上 执行 前 写 和 人 的 了 版 本 是 7 所 读 的 版 本 。 

3. 写 时 间 与 元 素 的 版 本 相关 ， 且 永 不 改变 。 

4. 读 时 间 也 与 版 本 相关 。 它 们 被 用 来 拒绝 某 些 写 操作 ， 例 如 时 间 小 于 原 有 版 本 读 时 间 的 写 
操作 。 图 7-41 RAN TRA, HX AWA Xo 和 成 o， 前 者 被 一 个 时 间 稚 为 80 的 事务 所 读 ， 
又 发 生 了 一 个 新 的 由 具有 时间 改 60 的 事务 了 执行 的 写 操 作 。 这 一 写 操作 必然 使 T 中 止 ， 因 为 如 
果 了 被 允许 执行 的 话 ， 它 关于 互 的 值 应 该 被 具有 时 间 恰 80 的 事务 读 到 。 




















RT=80 
Xso X 100 
By fe RR AGORI 
r(A) | RT=225 事务 试图 写 
图 7-40 7, 由 于 不 能 访问 A 的 旧 值 因而 必须 中 止 图 7-41 事务 试图 写 人 使 事件 事实 
上 不 可 实现 的 版 本 


5. HIRE X, 的 写 时 间 ;满足 任何 活跃 事务 的 时 间 截 都 不 小 于 + 时 ， 我 们 就 可 以 删除 外 的 任 
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fa] AE X, 的 版 本 。 

例 7. 28 让 我 们 重新 考虑 图 7-40 中 的 动作 在 使 用 多 版 本 时 间 惟 时 的 情况 。 首 先 ， 4 有 3 个 
版 本 :这 些 事务 开始 前 存在 的 版 本 A, T, SAW Aw, UE T, 写 人 的 4w。 图 7-42 给 出 了 事件 
序列 ， 版 本 何 时 被 创建 ， 以 及 它们 何 时 被 读 取 。 特 别 注意 克 不 必 中 止 ， 因 为 它 可 以 读 4 的 一 个 








较 早 的 版 本 。 口 
; Dn. 了 2 T3 Ta Ao Aiso A200 
150 200 175 2% | 
ri(4 Read 
wi{A) Create 
r2(A) Read 
we(A) Create 
rg(A) Read 
T4(A) Read 














图 7-42 使 用 多 版 本 并 发 控制 的 事务 执行 


7.8.6 RAMS se 
在 大 多 数 事务 只 读 或 并 发 事务 极 少 试图 读 写 同一 元 素 的 情况 下 ， 时 间 玲 通常 比较 优越 。 在 
高 冲突 的 情况 下 ， 封 锁 的 性 能 比较 好 。 对 这 一 经 验 规律 的 论证 为 : 
。 封锁 在 事务 等 待 锁 时 通常 推迟 事务 。 
。 但 如 果 并 发 事务 频繁 读 写 公 共 元 素 ， 那 么 回 滚 在 一 个 时 间 惟 调度 器 中 就 会 很 频繁 ， 导 致 
甚至 比 封 锁 系 统 中 更 多 的 延迟 。 
几 个 商用 系统 中 做 出 了 有 趣 的 折 中 。 调 度 器 将 事务 分 为 只 读 事务 和 读 / 写 事务 。 读 / 写 事 务 使 
用 两 阶段 封锁 执行 ， 以 避免 所 有 事务 相互 间 访 问 对 方 封锁 的 元 素 。 
只 读 事 务 使 用 多 版 本 时 间 截 执行 。 当 读 / 写 事务 创建 数据 库 元 素 的 新 版 本 时 ， 这 些 版 本 按 
7.8.5 节 所 述 进行 管理 。 只 读 事务 允许 读 适 合 于 其 时 间 蕉 的 任何 数据 库 元 素 版 本 。 因 此 只 读 事务 
从 不 会 被 中 止 ， 只 在 极 少时 候 被 推迟 。 
7.8.7 习题 
习题 7. 8. 1 下 面 是 几 个 事件 序列 ， 包 括 开始 事件 ， 其 中 st; 表示 事务 开始 。 这 些 序列 表示 真实 时 间 ， 并 且 
时 间 戳 的 调度 器 将 按照 事务 开始 的 顺序 为 其 分 配 时 间 惟 。 说 明 当 各 序列 执行 时 将 发 生 什 么 。 
a) sty; ri(A); ste; we(B); re(A); wi(B) 
b) sti; stz; r1(A); r2(B); we(A); wi (B) 
c) sti; stg; sto; 71(A); r3(B); wi(C); r2(B); r2(C); ws(B); we(A) 
d) sti; ste; sts; 71(A); r3(B); wi(C); r2(B); ra(C); wa(B); we(A) 
I 习题 7. 8. 2 ”在 对 基于 锁 的 调度 器 的 学 习 中 ， 我 们 发 现 获得 锁 的 事务 发 生死 锁 的 原因 有 几 个 。 使 用 提交 位 
C(X) 的 时 间 戳 的 调度 器 可 能 有 死 锁 吗 ? 
习题 7.8.3 说 明 下 列 事件 序列 过 程 中 将 发 生 什 么 ， 如 果 使 用 的 是 多 版 本 的 时 间 惟 调度 器 。 而 如 果 调 度 器 不 
维护 多 个 版 本 时 ， 又 将 发 生 什么 ? 
a) sti; sto; sts; sta; wi(A); ws(A); r4(A); ra(A) 
b) sti; st; stg; sta; wi(A); wa(A); r3(A); we(A) 
c) sty; stz; sta; sta; wi(A); we(A); wa(A); r2(A); ra(A) 
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7.9 使 用 有 效 性 确认 的 并 发 控制 


有 效 性 确认 是 另 一 种 乐观 的 并 发 控制 类 型 ， 其 中 我 们 人 允许 事务 不 经 封锁 访问 数据 ， 而 在 适 
当 的 时 候 我 们 检查 事务 是 否 以 一 种 可 串 行 化 的 方式 运转 。 有 效 性 确认 与 时 间 惟 的 主要 区 别 在 于 
调度 器 维护 关于 活跃 事务 正在 做 什么 的 一 个 记录 ， 而 不 是 为 所 有 数据 库 元 素 保存 读 时 间 和 写 时 
间 。 事 务 开 始 为 数据 库 元 素 写 人 值 前 的 一 刹那 ， 它 经 过 一 个 “有 效 性 确认 阶段 "， 这 时 用 它 已 经 
读 的 和 将 写 的 元 素 集合 与 其 他 活 唉 事务 的 写 集合 做 比较 。 如 果 存 在 事实 上 不 可 实现 行为 的 风险 ， 
该 事务 就 被 回 滚 。 

7.9.1 基于 有 效 性 确认 调度 器 的 结构 

当 有 效 性 确认 被 用 作 并 发 控制 机 制 时 ， 对 每 个 事务 了， 调度 器 必须 被 告知 了 所 读 和 写 的 数据 
库 元 素 集合 ， 分 别 是 读 集合 RS(7) 和 写 集合 WS(7) 。 事 务 分 三 个 阶段 来 执行 : 

1. 读 。 在 第 一 阶段 ， 事 务 从 数据 库 中 读 其 读 集合 中 的 所 有 元 素 。 事 务 还 在 其 局 部 地 址 空间 
中 计算 它 将 要 写 的 所 有 值 。 

2 有效 性 确认 。 在 第 二 阶段 ， 调 度 器 通过 比较 该 事务 与 其 他 事务 的 读 写 集合 来 确认 该 事务 
的 有 效 性 。 我 们 将 在 7. 9. 2 节 描 述 有 效 性 确认 过 程 。 如 果 有 效 性 确认 失败 ， 则 事务 回 深 ;否则 它 
继续 进入 第 三 阶段 。 

3. 写 。 在 第 三 阶段 ， 事务 往 数 据 库 中 写 入 其 写 集合 中 元 素 的 值 。 

直观 地 说 ， 我 们 可 以 认为 每 个 成 功 确认 的 事务 是 在 其 有 效 性 确认 的 瞬间 执行 的 。 因 此 ， 基 于 
有 效 性 确认 的 调度 器 对 事务 的 进行 有 一 个 假定 的 串 行 顺序 ， 并 且 它 根据 事务 行为 是 否 与 这 一 串 
行 顺序 一 致 来 决定 确认 事务 是 否 有 效 。 

为 了 支持 做 出 是 否 确认 事务 有 效 性 的 决定 ， 调 度 器 维护 三 个 集合 : 

1. START, 已 经 开始 但 尚未 完成 有 效 性 确认 的 事务 集合 。 对 这 个 集合 中 的 每 个 事务 7， 调 度 
器 维护 START(7) ， 即 事务 7 开始 的 时 间 。 

2. VAL， 已 经 确认 有 效 性 但 尚未 完成 第 3 阶段 写 的 事务 。 对 这 个 集合 中 的 每 个 事务 7， 调 度 
器 维护 START(T) 和 VAL(T), BP 了 确认 的 时 间 。 请 注意 ，VAL(7) 也 是 在 假设 的 串 行 执行 顺序 
中 所 设想 的 了 的 执行 时 间 。 

3. FIN, 已 经 完成 第 3 阶段 的 事务 。 对 这 样 的 事务 7， 调 度 器 记录 START( 7T) VAL(T) 和 
FIN(7) ， 即 了 完成 的 时 间 。 原 则 上 这 个 集合 将 增长 ， 但 正如 我 们 将 看 到 的 ， 如 果 对 任意 活跃 事 
务 U( 即 对 任何 在 START 或 VAL 中 的 7) ， 事 务 了 满足 FIN(7) <START(U)， 这 样 的 了 我 们 不 必 
记 住 。 调 度 器 因此 可 以 周期 性 地 清理 FIN 集合 ， 以 防止 其 增 大 到 超过 限度 。 


7.9.2 有 效 性 确认 规则 

如 果 调 度 器 维护 7. 9. 1 节 中 的 信息 ， 这 些 信息 足以 使 它 能 够 监测 出 任何 违反 假设 的 事务 串 行 
顺序 的 潜在 可 能 ,假设 的 事务 串 行 顺序 即 事务 有 效 性 确认 的 顺序 。 为 了 理解 这 些 规则 ， 让 我 们 首 
先 考虑 当 我 们 想 要 确认 一 个 事务 有 效 性 时 可 能 发 生 什么 错误 。 

1. 假设 存在 事务 UWE: 

a) U # VAL WẸ FIN 中; 即 U 已 经 过 有 效 性 确认 。 

b)FIN(U) > START(7); 即 尽 在 了 开始 前 没有 完成 。9 

c)RS(T) N WS(UD) 非 空 ; 特别 地 ， 设 其 包含 数据 库 元 素 X, 


© WEE, WE U EVAL 中 ， 那 么 当 了 确认 时 忌 尚 未 完成 。 这 种 情况 下 ，FIN(V) 在 技术 上 是 未 定义 的 。 但 是 ， 这 
种 情况 下 我 们 知道 它 必然 大 于 START(7) 。 
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种 情况 ， 如 图 7-43 所 示 。 为 了 解释 这 个 图 ， 请 注意 虚线 将 实际 时 间 的 事件 与 事务 在 其 有 效 性 确 
认 瞬 间 执 行 时 这 些 事件 发 生 的 时 间 联 系 起 来 。 由 于 我 们 不 知道 了 是 否 读 到 0 的 值 ， 我 们 必须 回 
滚 了 以 避免 了 和 了 的 动作 与 假设 串 行 顺序 不 一 致 的 风险 。 
2. 假设 存在 事务 UWE: 
a) U Œ VAL}; 即 U 有 效 性 已 经 成 功 确认 。 
b)FIN(U) > VAL(T); 即 U 在 T 进 入 其 有 效 性 确认 阶段 以 前 没有 完成 。 
c)WS(T) OWS(U) +; 特别 地 ,设计 同时 在 两 个 写 集合 中 。 
这 时 潜在 的 问题 如 图 7-44 所 示 。7 和 忆 都 必须 写 互 的 值 ， 而 如 果 我 们 确认 了 人 的 有 效 性 ， 它 
BLA REH URS X。 由 于 我 们 不 能 确定 ， 我 们 回 滚 了 以 保证 它 不 会 违反 假设 的 了 在 忌 后 的 串 行 
顺序 。 
THX TEX 
UBX 





U0 有 效 性 THT UAE DEGH e 
UFR THR 确认 完成 效 性 确认 确认 完成 Reem UER 
图 7-43 ”如 果 一 个 较 早 的 事务 现在 正在 写 人 图 7-44 ”如 果 工 在 有 效 性 确认 后 可 能 比 一 
7 应 该 读 过 的 某 些 东 西 ， 则 了 有 效 个 较 早 的 事务 先 写 某 个 东西 ， 则 
性 不 能 确认 7 不 能 确认 


土 面 描述 的 两 个 问题 是 7 了 的 写 可 能 事实 上 不 可 实现 的 唯一 情形 。 在 图 7-43 中 ， 如 果 了 在 了 
开始 前 完成 ， 那 么 了 肯定 应 该 读 到 U 或 某 个 更 晚 的 事务 所 写 的 X 值 。 在 图 7-44 中 ,如 果 U 在 7 
有 效 性 确认 前 完成 ， 那 么 U 肯定 在 7 前 写 X。 因 此 我 们 可 以 用 下 面 关 于 事务 7 有效 性 确认 的 规则 
来 概括 这 些 发 现 。 

。 对 于 所 有 已 经 过 有 效 性 确认 且 在 了 开始 前 没有 完成 的 Z， 即 对 于 满足 FIN (U)> 
START(7T) 的 UU， 检测 是 否 RS(T) NWS(U) =Ø. 

° 对 于 所 有 已 经 过 有 效 性 确认 且 在 7 了 有 效 性 确认 前 没有 完成 的 VU， 即 对 于 满足 FIN(U)> 
VAL(7T) 的 U， 检 测 是 否 WS(T) NWS(U) =Ø., 


RS={B} RS ={A,D} 
ws={D} WS={4,C} 





RS={A,B} RS={B} 
WS={A,C} WS={D,E} 


图 7-45 4 个 事务 及 其 有 效 性 确认 
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例 7.29 图 7-45 BT 4 PRS. UL VA WREATH RU AREER, GRS 
的 读 写 集合 在 图 中 标明 。7 第 一 个 开始 ， 尽 管 了 最 先进 行 有 效 性 确认 。 

1. U 的 有 效 性 确认 : 当 确认 的 有 效 性 时 没有 其 他 已 确认 事务 ， 因 而 什么 也 不 需要 检测 。U 
的 有 效 性 成 功 确认 并 为 数据 库 元 素 D 写 人 一 个 值 。 

2. 了 的 有 效 性 确认 : MHA THARE, U 已 确认 但 尚未 完成 。 因 此 ， 我 们 必须 检测 7 的 
读 写 集合 是 否 都 满足 与 WS(U) = {D} 没 有 公共 元 素 。 由 于 RS(7T) = {4, B}, 而 WS(7) = {A, 
Cj ， 两 个 检测 都 成 功 ， 因 而 确认 了 的 有 效 性 。 

3. 了 的 有 效 性 确认 : 当 确 认 了 的 有 效 性 时 ， 忆 已 确认 和 完成 ，7 已 确认 但 尚未 完成 。 并 且 了 
在 乙 完 成 前 开始 。 因 此 ， 我 们 必须 用 RSV) 5 WSV) ZERKA WS(T) 比较 , 但 只 需 用 RSCV) 来 
和 WS(U) 比较 。 我 们 发 现 : 

e RS(V) N ws(T) = {B} N {4,0} =Ø 

e WS(V) N ws(T) = {D, E} N {4,0} =Ø 

e RS(V) N ws(U) = {B} n {D} =Ø 


EE, V 的 有 效 性 也 成 功 确认 。 

4. W 的 有 效 性 确认 ; 当 确 认 W HAREN, RIER UE 不 开 始 前 已 结束 ， 因 此 在 到 与 忆 
之 间 不 执行 任何 比较 。7 在 丈 确 认 前 完成 但 未 在 克 开 始 前 完成 ， 因 此 我 们 只 比较 RSW) 和 
WS( 7T) 。V 已 确认 但 尚未 完成 ， 因 此 我 们 需要 用 RS(W) 与 WS(W) 二 者 来 和 WS(V) 比较 。 检 测 
如 下 : 

e RS(W) N ws(T) = {4, D} N {A,C} = {A} 

e RS(W) Nn ws(V) = {4, D} N {D, E} = {D} 

e ws(W) N ws(V) = {4,C} Nn {D, E} =Ø 


由 于 交集 并 非 都 为 空 ， 歼 的 有 效 性 不 能 确认 。 相 反 地 ， 多 被 回 滚 是 不 为 4 或 C 写 人 值 。 O 


瞬时 行为 

你 可 能 已 经 注意 到 确认 这 一 动作 在 片刻 间或 不 可 分 的 瞬间 发 生 这 一 概念 。 例 如 ， 我 们 想 
象 我 们 能 够 确定 在 我 们 开始 确认 事务 了 前 事务 UU 是 否 已 经 确认 。U 可 能 在 我 们 正在 确认 时 
完成 确认 吗 ? 

如 果 我 们 在 单 处 理 器 的 系统 上 运行 ， 并 且 只 有 一 个 调度 器 进程 ， 我 们 确实 可 以 将 确认 或 
调度 器 的 其 他 动作 看 作 是 在 瞬间 发 生 的。 原因 在 于 ， 如 果 调 度 器 正在 确认 T， 它 就 不 可 能 也 
正在 确认 U， 所 以 在 TT 确认 的 整个 过 程 中 ,UU 的 确认 状态 不 会 改变 。 

如 果 我 们 运行 在 多 处 理 器 上 ， 并 且 有 多 个 调度 器 进程 ， 那 么 就 有 可 能 一 个 在 确认 T， 而 
另 一 个 在 确认 0。 如 果 这 样 ， 我 们 需要 依赖 多 处 理 器 系统 所 提供 的 某 种 同步 机 制 来 使 确认 成 
为 原子 的 动作 。 




















7. 9.3 三 种 并 发 控制 机 制 的 比较 
我 们 已 经 考虑 过 的 三 种 可 串 行 性 方法 (封锁 、 时 间 惟 和 有 效 性 确认 ) 各 有 其 优点 。 首 先 ， 它 
们 可 以 在 对 存储 的 利用 上 进行 比较 : 
。 封锁 : 锁 表 空间 与 被 封锁 元 素 个 数 成 正比 。 
。 HAR: 在 不 成 熟 的 实现 中 ， 每 个 数据 库 元 素 的 读 时 间 和 写 时 间 都 需要 空间 ， 不 管 该 元 
素 当前 是 否 被 访问 。 但是, 更 精细 的 实现 会 将 最 早 的 活跃 事务 以 前 的 所 有 时 间 戳 看 作 “ 负 
无 穷 ”， 并 且 不 记录 它们 。 在 这 种 情况 下 ,我们 可 以 类 似 锁 表 那样 将 读 时 间 和 写 时 间 记 录 
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在 一 张 表 中 ， 其 中 只 给 出 那些 最 近 已 经 被 访问 过 的 数据 库 元 素 。 
e 有 效 性 确认 ;空间 用 于 每 个 当前 活跃 事务 以 及 少量 几 个 在 某 当 前 活跃 事务 开始 后 完成 的 
事务 的 时 间 惟 和 读 / 写 集合 。 
因此 ， 每 种 方法 使 用 的 空间 数量 大 致 正比 于 所 有 活路 事务 访问 的 数据 库 元 案 总 和 。 时 间 蕉 
和 有 效 性 确认 可 能 使 用 空间 略微 多 一 些 ， 因 为 它们 记录 最 近 提交 事务 的 某 些 访问 ， 而 这 是 锁 表 
所 不 记录 的 。 有 效 性 确认 的 一 个 潜在 问题 是 ， 事务 的 写 集 合 必须 在 写 发 生 以 前 (但 在 事务 的 局 部 
计算 已 经 完成 后 ) 知 道 。 
我 们 还 可 以 在 不 推迟 事务 完成 的 能 力 方 面 比较 这 些 方法 的 成 效 。 这 三 种 方法 的 性 能 依赖 于 
事务 间 的 相互 影响 (事务 访问 一 个 并 发 事务 所 访问 元 素 的 可 能 性 ) 是 高 还 是 低 。 
。 封锁 推迟 事务 但 避免 回 滚 ， 即 使 当 相互 影响 高 时 。 时 间 惟 和 有 效 性 确认 不 推迟 事务 ， 但 
能 导致 其 回 滚 ， 而 这 是 推迟 的 一 种 更 严重 的 形式 ， 并 且 也 浪费 资源 。 
。 如 果 相 互 影响 低 ， 那 么 时 间 惟 和 有 效 性 确认 都 不 会 导致 太 多 的 回 滚 ， 并 且 因 为 它们 通常 
比 封 锁 调 度 器 开销 小 而 更 受 欢迎 。 
。 当 回 滚 必要 时 ， 时 间 惟 比 有 效 性 确认 更 早 地 捕获 某 些 问 题 ， 或 者 在 考虑 一 个 事务 是 否 必 
须 回 滚 前 常常 让 其 做 完 所 有 的 内 部 工作 。 


7.9.4 习题 
习题 7. 9. 1 在 下 列 时 间 序 列 中 ， 我 们 用 R.(X) 表 示 “ 事务 7; 开始 ， 且 其 读 集合 是 数据 库 元 素 列表 X”。 此 
Sb, V 表示 “了 试图 确认 有 效 性 ”， 而 W(X) 表示“ 事务 T, 完成 ， 且 其 写 集合 是 X., 说明 当 一 个 基于 有 效 
性 确认 的 调度 器 处 理 每 个 序列 时 会 发 生 什么 。 
a) Ri(A,B); Ra(B,O); Ra(C); Vi; Va; Va; Wi(A); We(B); Wa(C) 
b) Rı(4, B); Ro(B,C); Ra(C); Vi; Va; Va; Wi(C); We(B); W3(A) 
c) Ry(A,B); Re(B,C); Ra(C); Vi; Vz; Va; Wi(A); We(C); Wa(B) 
d) Ri (A,B); Re(B,C); Vi; Rs(C, D); Va; Wi(A); Vo; Wa(A); Wa(B) 
e) Rı(A, B); Ro(B,C); Vi; Ra(C,D); Va; Wi(A); Vo; Wo(A); W3(D) 
f) Ri(A,B); Ro(B,C); Vi; Ra(C, D); Va; Wi(C); Vz; Wo(A); Wa(D) 


7.10 小 结 


© 一 致 的 数据 库 状 态 : 遵循 设计 者 想 要 的 所 有 隐 含 的 或 声明 的 约束 的 数据 库 状态 被 称 为 是 一 
致 的 。 数 据 库 上 的 操作 保持 一 致 性 ， 即 它们 将 一 个 一 致 的 数据 库 状 态 转换 到 另 一 个 ， 这 非 
常 重要 。 

。 并 发 事务 一 致 性 : 多 个 事务 同时 访问 一 个 数据 库 是 很 正常 的 。 隔 高 执行 的 事务 是 假定 能 
保持 数据 库 一 致 性 的 。 保 证 并 发 操作 的 事务 也 保持 数据 库 一 致 性 是 调度 器 的 任务 。 

。 调度 : 事务 被 划分 为 动作 ， 只 要 是 对 数据 库 的 读 和 写 。 来 自 一 个 或 多 个 事务 的 这 些 动作 
的 一 个 序列 称 为 一 个 调度 。 : 

。 PWE: 如 果 一 次 执行 一 个 事务 ， 则 该 调度 被 称 为 是 串 行 的 。 

TETRA: 在 对 数据 库 的 效果 上 等 价 于 某 个 串 行 调度 的 调度 被 称 为 是 可 串 行 化 的 。 
在 一 个 可 串 行 化 的 但 非 串 行 的 调度 中 ,来 自 几 个 事务 的 动作 相互 交错 是 可 能 的 ， 但 是 我 们 
对 于 我 们 允许 哪些 动作 序列 小 心 冲 慎 ， 否 则 一 个 交错 将 使 数据 库 处 于 不 一 致 的 状态 。 

。 冲突 可 串 行 化 ; 可 串 行 化 的 一 个 易于 判断 的 充分 条 件 是 调度 能 通过 一 系列 相 邻 动作 的 非 
冲突 交换 转变 为 串 行 的 。 这 样 的 调度 称 为 冲突 可 串 行 化 调度 。 如 果 我 们 试图 交换 同一 事务 
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的 两 个 动作 ， 或 者 交换 访问 同一 数据 库 元 素 的 两 个 动作 而 其 中 至 少 一 个 动作 是 写 ， 那 么 冲 
突 将 发 生 。 

© 优先 图 : 冲突 可 串 行 化 的 一 种 简单 的 测试 方法 是 为 调度 构造 一 个 优先 图 。 结 点 对 应 于 事 
务 ， 而 如 果 某 个 动作 了 在 调度 中 与 一 个 比较 靠 后 的 动作 U 冲突 ， 那么 就 有 一 条 纺 TOU 。 
调度 是 冲突 可 串 行 化 的 当 且 仅 当 优先 图 无 环 。 

© 封锁 ; 保证 可 串 行 化 调度 最 常用 的 方法 是 在 访问 数据 库 元 素 前 先 封 锁 ， 并 在 完成 对 该 元 
素 的 访问 后 释放 其 锁 。 元 素 上 的 锁 禁 止 其 他 事务 访问 该 元 素 。 

。 两 阶段 封锁 : 封锁 自身 并 不 能 保证 可 串 行 化 。 但 是 ， 两 阶段 封锁 能 保证 可 串 行 化 ， 在 两 
阶段 封锁 中 所 有 事务 首先 进入 一 个 只 申请 锁 的 阶段 ， 然 后 进入 一 个 只 释放 锁 的 阶段 。 

。 封锁 模 么 为 了 避免 不 必要 地 将 事务 封锁 在 外 ， 系 统 通常 使 用 多 种 封锁 方式 ， 对 每 种 广 
式 什么 时 候 可 以 授予 锁 有 不 同 的 规则 。 最 常用 的 系统 中 包含 用 于 只 读 访 问 的 共享 锁 和 用 于 
包括 写 访问 的 排他 锁 。 

。 MEERE: 相 容 性 矩阵 是 对 已 知 同一 元 素 上 可 能 有 另 一 方式 或 同一 方式 的 锁 情 况 下 ， 
授予 某 种 方式 的 锁 什 么 时 候 合法 的 一 种 有 用 的 汇总 。 

。 更 新 锁 : 调度 器 允许 一 个 先 读 再 写 一 个 元 素 的 事务 首先 获得 一 个 更 新 锁 ， 而 在 以 后 将 该 
锁 升 级 为 排他 的 。 更 新 锁 在 元 素 上 已 经 有 共享 锁 时 可 以 被 授予 ， 但 一 日 元 素 上 有 了 -一 个 更 
新 锁 ， 它 就 禁止 在 该 元 素 上 授予 其 他 锁 。 

。 增 量 锁 : 对 于 事务 只 想 在 元 素 上 增加 或 减少 一 个 常数 这 一 常见 的 情况 ， 增 量 锁 非 常 适合 。 
同一 元 素 上 的 增 量 锁 相 互 不 冲突 ， 尽 管 它们 同 共享 锁 以 及 排他 锁 冲 突 。 

。 有 粒度 层次 元 素 的 封锁 : 当 大 的 元 素 和 小 的 元 素 ( 或 许 是 关系 、 磁 盘 块 和 元 组 ) 都 可 能 需 
要 被 封锁 时 ， 警 示 封 锁 系 统 保证 可 串 行 性 。 事 务 在 大 的 元 素 上 加 意向 锁 ， 以 警示 其 他 事务 
自己 打算 访问 该 元 素 的 一 个 或 多 个 子 元 素 。 

。 组 织 成 树 的 元 素 的 封锁 : 如 果 数 据 库 元 素 只 在 沿 着 树 向 下 时 被 访问 ， 如 同 B - 树 中 那样 ， 
那么 一 个 非 两 阶段 封锁 策略 可 以 用 来 保证 可 串 行 性 。 其 规则 要 求 在 子 结 点 上 上 锁 时 需要 持 
有 父 结 点 上 的 锁 ， 尽 管 父 结 点 上 的 锁 可 以 随后 释放 而 且 以 后 可 以 获得 其 他 的 锁 。 

e 乐观 的 并 发 控制 : 调度 器 可 以 不 使 用 封锁 ， 而 假设 事务 是 可 串 行 化 的 ， 并 在 看 到 某 个 潜 
在 的 非 可 串 行 化 行为 时 将 事务 中 止 。 这 种 被 称 为 是 乐观 的 方法 分 为 基于 时 间 坊 的 调度 和 基 
于 有 效 性 确认 的 调度 。 

。 基于 时 间 徐 的 调度 器 : 这 类 调度 器 在 事务 开始 时 为 其 赋予 时 间 锥 。 数 据 库 元 素 有 相关 的 
读 写 时 间 ， 它 们 是 最 近 执 行 这 些 操 作 的 事务 的 时 间 蕉 。 如 果 一 个 不 可 能 的 情况 被 检测 到 ， 
例如 一 个 事务 读 到 在 该 事务 的 将 来 写 人 的 一 个 值 ， 那 么 违例 的 事务 被 回 滚 ， 即 中 止 并 
重启 。 

。 多 版 本 时 间 改 : 实践 中 用 于 只 读 事务 的 一 种 常用 技术 是 使 用 时 间 惟 ， 但 有 多 个 版 本 ， 其 
中 对 一 个 元 素 的 写 不 覆盖 先前 为 该 元 素 写 人 的 值 ， 直 到 所 有 可 能 需要 先前 的 值 的 事务 已 经 
完成 。 写 事务 通过 传统 的 封锁 来 调度 。 

e 基于 有 效 性 确认 的 调度 器 : 这 些 调度 器 在 事务 已 经 读 完 所 有 它们 所 需要 的 东西 以 后 ， 但 
在 它们 写 以 前 确认 事务 有 效 性 。 事 务 如 果 已 经 读 或 将 要 写 另 外 的 某 个 事务 正在 写 的 元 素 ， 
那么 将 产生 有 歧义 的 结果 ， 所 以 该 事务 有 效 性 不 能 确认 。 确 认 失 败 的 事务 被 回 滚 。 


7.11 参考 文献 


文献 [6] 是 有 关 调 度 和 封锁 的 重要 资料 来 源 。 文 献 [3] 是 另 一 个 重要 的 来 源 。 文 献 [12] 和 
[11] 是 近期 关于 并 发 控制 的 两 个 综述 。 


244 B 部 分 MBERE 
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第 8 章 ， 再 论 事务 管理 


这 一 章 我 们 讨论 第 6 章 和 第 7 章 所 没有 谈 到 的 几 个 关于 事务 管理 的 问题 。 首 先 我 们 要 协调 一 
下 前 两 章 中 的 观点 : 错误 恢复 、 人 允许 事务 中 止 以 及 维护 可 串 行 性 这 三 种 需要 如 何 相互 影响 ? 接着 
我 们 讨论 事务 间 的 死 锁 管理 ， 死 锁 通 常 由 几 个 事务 引起 ， 这 些 事务 各 自 需 要 等 待 一 个 被 另 一 事 
务 占 用 的 资源 ， 例 如 锁 。 

最 后 我 们 考虑 由 “长 事务 "引起 的 问题 。 某 些 应 用 中 人 和 计算 机 进程 需要 进行 交互 ， 例 如 
CAD 系统 和 "工作 流 " 系 统 ， 这 样 的 交互 可 能 长 达 数 天 。 这 些 系统 和 短 事 务 系统 (如 银行 系统 和 机 
票 预订 系统 ) 一 样 需要 保持 数据 库 状 态 的 一 致 性 。 但 是 ， 第 7 章 讨论 的 并 发 控制 机 制 不 能 很 好 地 
工作 ， 因 为 锁 需 要 被 占用 数 天 ,或 者 人 的 决策 是 “事务 ”的 一 部 分 。 


8.1 可 串 行 性 和 可 恢复 性 


在 第 6 章 中 我 们 讨论 了 日 志 的 创建 以 及 在 系统 崩溃 时 如 何 使 用 日 志 恢复 数据 库 状 态 。 我 们 引 
人 了 看 待 数据 库 计算 的 一 种 方式 ， 即 值 在 非 易 失 性 磁盘 、 易 失 性 主 存 以 及 事务 的 局 部 地 址 空间 
之 间 移 动 。 各 种 日 志方 式 所 给 的 保证 是 ， 当 前 溃 发 生 时 ， 它 能 在 数据 库 的 磁盘 拷贝 中 重建 已 提交 
事务 的 动作 。 日 志 系统 不 试图 支持 可 串 行 性 ; 它 盲目 地 重建 数据 库 状 态 ， 即 使 该 状态 是 由 动作 的 
非 可 串 行 化 调度 产生 的 。 事 实 上 ， 商 用 数据 库 系统 不 一 定 总 是 坚持 可 串 行 性 ， 在 有 的 系统 中 ， 仅 
在 用 户 显 式 要 求 时 才 实 现 可 串 行 性 。 

另 一 方面 , 第 7 章 只 讨论 可 串 行 性 。 根 据 第 7 章 的 原则 设计 的 调度 器 可 能 做 出 日 志 管理 器 所 
不 能 容忍 的 事 。 例 如 ， 可 串 行 性 定义 不 禁止 封锁 元 素 4 的 事务 在 提交 前 为 4 写 人 新 值 ， 因 而 违反 
日 志 策略 的 规划。 更 糟糕 的 是 ， 即 使 没有 发 生 系统 衣 演 ， 并 且 调 度 器 理论 上 维护 可 捉 行 性 ， 事 务 
也 可 能 在 写 数据 库 后 中 止 且 此 前 的 写 人 并 未 撤销 ， 而 这 很 容易 导致 数据 库 状 态 不 一 致 。 


8.1.1 及 数据 问题 

回忆 一 下 《数据 库 系 统 基础 教程 ( 原 书 第 3 版 )》6. 6.5 节 中 提 到 的 ， 如 果 数 据 被 未 提交 事务 写 
人， 那么 该 数据 就 是 “ 脏 的 "”。 脏 数据 可 能 出 现在 缓冲 区 中 、 磁 盘 上 或 兼 而 有 之 ; 不 管 哪 一 种 都 
可 能 导致 问题 。 

例 8.1 我 们 重新 考虑 图 7-13 中 的 可 串 行 化 调度 ,但 假设 在 7, 读 B 后 由 于 某 个 原因 不 得 不 
中 止 。 事 件 系列 如 图 8-1 所 示 。 在 7, 中 止 后 ， 调 度 器 释放 T, 所 获得 的 对 B 的 锁 ; 这 一 步骤 很 关 
键 ， 否 则 别 的 事务 就 永远 也 不 能 获得 B 上 的 锁 了 。 

BÆ, T, 现在 已 读 和 信 了 不 代表 任何 一 致 数据 库 状态 的 数据 。 也 就 是 说 ， 读 到 的 4 (AE T, 
修改 后 的 值 ， 而 它 读 到 的 BEE T, 采取 动作 以 前 的 值 。 在 这 种 情况 下 ，7, 是 否 将 A 值 125 写 到 
磁盘 无 关 紧 要 ; PEER, T, 都 从 缓冲 区 中 得 到 该 值 。 因 为 T, 读 到 不 一 致 状态 ， 因 此 使 得 数据 
库 ( 或 磁盘 ) 处 于 不 一 致 的 状态 ， 其 中 4zB。 

图 8-1 中 的 问题 在 于 , T, SARA 是 脏 数据 ， 不管 它 在 主 存 中 还 是 在 硬盘 上 。7, 读 4， 然 后 
又 在 自己 的 计算 中 使 用 该 值 ， 这 就 使 T, 的 动作 变 得 不 可 靠 。 正 如 我 们 将 在 8. 1. 2 节 看 到 的 那样 ， 
如 果 人 允许 这 样 的 情况 发 生 ， 就 有 必要 中 止 和 回 滚 也 5 T, 口 
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T, Tz B 
25 
L(A); r(A); 
A := A+100; 
wi (A); h(B); u1(A); 
12(4); ra( A); 
A := Ax2; 
wa2(A); 
12(B) 被 拒绝 


1 (B); 

Abort; ui(B); 
12(B); u2(A); r2(B); 
B := By2; 


wa(B); ua(B)i 50 











图 8-1 7, 写 人 脏 数据 后 中 止 


例 8.2 现在 考虑 图 8-2， 它 给 出 了 7. 8 节 中 基于 时 间 稚 的 调度 器 下 的 一 个 动作 序列 。 但 是 ， 
我 们 假设 这 一 调度 器 不 使 用 7. 8. 1 节 中 所 引入 的 提交 位 。 回 忆 一 下 ， 提 交 位 的 目的 是 防止 未 提交 
事务 写 人 的 值 被 其 他 事务 读 取 。 因 此 ， 当 7 在 第 2 步 读 取 8B 时 ,没有 提交 位 来 告诉 T 它 需 要 等 














图 8-2 T 从 工读 到 脏 数据 ， 因 而 当 7 中止 时 也 必须 中 止 


RE, T, 试图 以 一 种 物理 上 不 可 实现 的 方式 写 C, T, Am Pik. T, 以 前 写 B 所 产生 的 效果 
被 撤销 ; B 的 值 和 写 时 间 分 别 重 置 为 7, 写 以 前 的 值 和 写 时 间 。 然 而 ,7 已 被 允许 使 用 这 一 撤销 
的 B 值 并 能 用 该 值 做 任何 事情 ,例如 用 它 来 计算 4、B 和 /或 C 的 新 值 并 将 它们 写 回 磁盘 。 因 此 ， 
T, ÆR B 的 脏 值 后 可 能 导致 不 一 致 的 数据 库 状态 。 请 注意 ， 如 果 记 录 并 使 用 提交 位 ， 那 么 第 2 
步 的 r.(8B) 将 被 推迟 ， 必 须 等 到 7, 中 止 并 且 B 的 值 已 恢复 为 原 ( 假 设 已 提交 的 ) 值 后 ， 这 一 动作 
才 人 允许 发 生 。 口 


8.1.2 级 联 回 滚 

正如 我 们 在 上 面 的 例子 中 看 到 的 那样 ， 如 果 事 务 可 以 获得 脏 数 据 ， 那 么 有 时 候 我 们 需要 执 
行 级 联 回 滚 。 也 就 是 说 ， 当 事务 了 中 止 时 ， 我 们 必须 确定 哪些 事务 读 了 由 了 写 人 的 数据 ， 中 止 这 
些 事务 ， 然 后 递归 地 中 止 读 了 被 中 止 事务 所 写 数 据 的 所 有 事务 。 如 果 日 志 是 提供 改 前 值 的 某 类 
日 志 (undo H ask undo/redo 日 志 ) ， 那 么 我 们 可 以 利用 日 志 来 撤销 中 止 事务 的 影响 。 如 果 脏 数据 
的 影响 还 没有 到 达 磁 盘 ， 我 们 也 可 以 使 用 数据 库 的 硬盘 拷贝 来 恢复 数据 。 

正如 我 们 已 经 提 到 的 那样 ， 使 用 提交 位 的 基于 时 间 戳 的 调度 器 禁止 可 能 已 读 到 及 数据 的 事 
务 继续 执行 ， 因 而 使 用 这 样 的 调度 器 时 不 可 能 产生 级 联 回 滚 。 基 于 有 效 性 确认 的 调度 器 也 能 避 
免 级 联 回 滚 ， 因 为 写 数据 库 ( 甚 至 缓冲 区 ) 只 有 在 确定 事务 将 提交 后 才 发 生 。 


8. 1.3 可 恢复 的 调度 
对 于 我 们 在 第 6 章 中 讨论 的 任何 支持 恢复 的 日 志方 式 ， 恢 复 后 处 于 提交 状态 的 事务 集 必须 是 
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一 致 的 。 也 就 是 说 ， 如 果 事 务 T, 在 恢复 后 处 于 提交 状态 ， 而 也 用 到 了 事务 T, SAW, BA 
T, 在 恢复 后 也 必须 是 提交 状态 。 这 样 ， 我 们 给 出 如 下 定义 : 
。 如 果 调 度 中 每 一 个 事务 都 在 它 所 读 取 的 所 有 事务 提交 之 后 才 提 交 ， 则 该 调度 是 可 恢复 的 。 
例 8.3 在 下 面 读 写 动作 调度 序列 示例 中 ， 我 们 用 o 表示 动作 :“ 事 务 T, 提交 ”。 下 面 是 一 
个 可 恢复 调度 的 例子 : 
Si: wi(A); wi (B); we(A); r2(B); cli c2; 


ER, n ERT T 写 人 的 B 的 值 ， 因 此 为 了 使 该 调度 为 可 恢复 的 ，7 必须 在 7T 之 后 提交 。 
显然 ， 上 面 的 调度 S 既是 可 恢复 的 也 是 串 行 的 (因此 也 是 可 串 行 化 的 ) ， 但 是 这 两 个 概念 是 
互 不 相关 的 。 比 如 ， 我 们 在 S, 上 做 些 改 动 ， 得 到 调度 $9, ， 它 仍 是 可 恢复 的 ， 但 不 是 可 串 行 化 的 。 
S2: we(A); wi(B); wi (A); re(B); c1; c2; 


在 调度 S, 中 ， 因 为 4 的 写 人 ， 在 串 行 序列 中 也 必须 在 也 之 前 ; 但 又 因为 已 的 读 取 ， 了 下 必须 在 
T, 之 前 。 
最 后 ， 我 们 来 看 一 下 在 S, 上 做 改动 后 得 到 的 调度 $; ， 它 是 可 串 行 化 的 ， 但 却 不 是 可 恢复 的 : 
S3: wi(A); wı (B); we(A); r2(B); ce; c1; 


在 调度 SS, F, 7, ET 之 前 ， 但 是 它们 的 提交 顺序 是 错误 的 。 如 果 崩 省 发 生 之 前 ， 刀 的 提交 记 
PIAA, MT, 的 提交 记录 没有 达到 ， 那 么 不 管 是 使 用 undo, redo 还 是 undo/redo 日 志 ， 恢 复 
Ja, T, 都 将 处 于 提交 状态 , (AT, 不 是 。 口 

为 了 使 可 恢复 调度 在 三 种 日 志方 式 中 的 任 一 方式 下 都 是 真正 可 恢复 的 ， 我 们 必须 对 调度 增 
加 一 前 提 条 件 : 

© 日 志 的 提交 记录 到 达 磁 盘 的 顺序 必须 和 它们 被 写 信 的 顺序 一 致 。 

正如 我 们 在 例 8.3 的 调度 S 中 所 看 到 的 ， 一 且 提 交 记 录 按 照 错 误 的 次 序 到 达 磁 盘 ， 那 么 一 
致 性 恢复 就 将 是 不 可 能 的 了 。 我 们 将 在 8.1.6 节 中 再 来 讨论 该 原则 。 


8.1.4 避免 级 联 回 滚 的 调度 

可 恢复 调度 有 了 时 会 需要 级 联 回 深 。 比 如 例 8.3 的 调度 $S, ， 如 果 执 行 完 前 四 步 之 后 ，7 必须 
EA, BAT, 也 必须 回 滚 。 为 了 保证 级 联 回 滚 不 发 生 ， 我 们 需要 一 个 比 可 恢复 性 更 严格 的 条 件 : 

如果 调度 中 的 事务 只 读 取 已 提交 事务 写 人 的 数据 ， 则 称 该 调度 为 避免 级 联 加深 (avoid cas- 

cading rollback) 的 调度 (或 ACR 调度 ) 。 

换 句 话说 ，ACR 调度 避免 了 及 数据 的 读 取 。 至 于 可 恢复 调度 ， 我 们 认为 “已 提交 ” 即 表示 日 志 的 
提交 数据 已 到 达 磁 盘 。 

例 8.4 例 8.3 中 的 调度 都 不 是 ACR 调度 。 因 为 在 每 一 个 调度 中 ，7, 都 从 未 提交 事务 T, 中 
BRT 8。 然而 ， 考 虑 以 下 调度 : 

Sa: wi(A); wi(B); we(A); cii 72(B); c2; 


HE, T, 仅 在 最 后 写 B 的 事务 T, 提交 ， 且 其 日 志 记录 写 和 磁盘 后 才 读 取 B, A, WES, 是 
ACR 调度 ， 同 时 也 是 可 恢复 的 。 口 
注意 ， 既 然 一 个 事务 ， 比 如 7,， 只 在 7 提交 之 后 才 读 取 T 写 人 的 数据 ， 那 么 可 以 肯定 的 
E, T, 无 论 是 提交 还 是 撤销 都 将 是 在 7, 提交 之 后 。 因 此 : 
。 每 一 个 ACR 调度 都 是 可 恢复 的 。 


8.1.5 基于 锁 对 回 滚 的 管理 
我 们 此 前 的 讨论 可 以 用 于 任意 类 型 调度 器 所 生成 的 调度 。 大 多 数 情况 下 ,调度 器 都 是 基于 
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锁 的 ， 有 一 种 简单 常用 的 方法 可 以 保证 不 产生 级 联 回 滚 : 

e 严格 封锁 : 直到 事务 提交 或 中 止 且 提交 或 中 止 日 志 记 录 已 被 刷新 到 磁盘 之 后 ， 事 务 才 多 

许 释 放 排 他 锁 ( 或 其 他 允许 值 发 生 改 变 的 锁 ， 如 增 量 锁 ) 。 

遵循 严格 封锁 规则 的 事务 调度 称 为 严格 调度 。 这 种 调度 有 两 个 重要 的 特性 : 

1. 每 一 个 严格 调度 都 是 ACR 调度 。 这 是 因为 事务 T, RAER T, 所 写作 的 元 素 X 的 值 ， 直 
到 7, 释放 所 有 排他 锁 (或 可 以 改变 的 类 似 的 锁 )。 在 严格 封锁 下 ， 事 务 提交 之 后 才能 释放 。 

2. 每 一 个 严格 调度 都 是 可 囊 行 化 的 。 不 难 发 现 ， 严 格调 度 和 事务 即刻 提交 即刻 执行 的 串 行 
调度 是 等 价 的 。 

根据 这 些 观察 我们 可 以 得 到 迄今 为 止 我 们 了 解 的 不 同 种 类 调度 之 间 的 关系 图 。 它 们 之 间 
的 包含 关系 如 图 8-3 所 示 。 


可 串 行 化 的 





图 8-3 各 类 调度 之 间 的 包含 关系 图 


显然 ， 严 格调 度 中 不 可 能 有 事务 读 到 脏 数 据 ， 因 为 未 提交 事务 写 人 缓冲 区 中 的 数据 在 事务 
提交 前 总 保持 封锁 状态 。 然 而 ， 事 务 中 止 时 修复 缓冲 区 中 数据 的 问题 仍然 存在 ， 因 为 这 些 改 变 所 
产生 的 效果 必须 撤销 。 修 复 缓冲 数据 的 难度 依赖 于 数据 库 元 素 是 块 还 是 更 小 的 东西 。 我 们 将 分 
别 考 虑 这 两 种 情况 。 

块 的 回 滚 

如 果 可 封锁 数据 库 元 素 是 块 ， 那 么 我 们 有 一 种 不 需要 使 用 日 志 的 回 滚 方 法 。 假 设 事务 7 获得 
块 4 上 的 排他 锁 ， 在 缓冲 区 中 为 4 写 人 新 值 ， 然 后 不 得 不 中 止 。 由 于 4 在 7 写 和 人 其 值 以 来 一 直 是 
被 锁 住 的 ， 其 他 事务 都 不 会 读 4。 如 果 遵 循 下 面 的 规则 ， 则 恢复 A 的 旧 值 就 很 简单 : 

© 未 提交 事务 所 写 的 块 被 钉 在 主 存 中 ， 即 不 允许 它们 的 缓冲 区 写 到 磁盘 。 

在 这 种 情况 下 ， 我 们 通过 让 缓冲 区 管理 器 忽略 4 值 来 “ 回 滚 *T。 也 就 是 说 ，4 占据 的 缓冲 区 
不 写 到 任何 地 方 去 ， 且 该 缓冲 区 被 加 入 到 可 用 缓冲 区 池 中 。 我 们 可 以 确定 磁盘 上 的 4 值 是 已 提交 
事务 最 近 写 人 的 值 ， 这 正 是 我 们 希望 4 具有 的 值 。 

如 果 我 们 使 用 7. 8.5 节 和 7. 8.6 节 的 多 版 本 系统 ， 我 们 还 有 男 一 种 简单 的 回 滚 方 法 。 我 们 必 
须 再 次 假设 未 提交 事务 所 写 的 块 被 钉 在 主 存 中 。 那 么 ， 我 们 只 要 从 4 的 可 用 值 列表 中 去 掉 7 了 所 写 
人 的 值 即 可 。 注 意 ， 由 于 了 是 写 事务 ， 其 4 值 从 写 人 该 值 那 一 刻 起 到 了 中 止 这 一 段 时 间 内 是 被 锁 
住 的 (假设 使 用 7. 8. 6 节 的 时 间 戳 /封锁 模式 ) 。 

小 的 数据 库 元 素 的 回 滚 

如 果 可 封锁 数据 库 元 素 是 块 的 部 分 (例如 元 组 或 对 象 ) ， 那 么 为 恢复 中 止 事务 而 修改 缓冲 区 
的 简单 方法 就 行 不 通 了 。 问 题 在 于 ， 一 个 缓冲 区 中 可 能 包含 两 个 甚至 更 多 事务 修改 的 数据 ; 如果 
其 中 之 一 中 止 ， 我 们 仍然 必须 保留 其 他 事务 所 做 的 修改 。 当 我 们 需要 恢复 中 止 事务 修改 过 的 一 
个 小 的 数据 库 元 素 4 的 旧 值 时 ， 我 们 可 以 有 几 种 选择 ， 
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1. 我 们 可 以 从 存储 在 磁盘 上 的 数据 库 中 读 取 4 原来 的 值 ， 并 对 缓冲 区 内 容 做 适当 的 修改 。 

2. 如 果 日 志 是 undo H AM undo/redo 日 志 ， 那 么 我 们 可 以 从 日 志 中 获得 改 前 值 。 从 和 崩溃 中 
恢复 的 代码 也 可 以 同样 用 于 “自动 " 回 滚 。 

3. 我 们 可 以 为 每 个 日 志 所 做 的 修改 维护 一 个 单独 的 主 存 日 志 ， 该 日 志 仅 在 对 应 事务 活 牙 时 
保留 。 旧 值 可 以 从 这 一 “日 志 ” 中 获得 。 

这 些 方法 都 不 理想 。 第 一 种 方法 显然 需要 一 次 磁盘 访问 。 第 二 种 (查看 日 志 ) 方 法 在 相关 的 
日 志 部 分 仍 在 缓冲 区 中 时 可 能 不 需要 访问 磁盘 ,但 是 ， 这 种 方法 也 可 能 需要 查看 磁盘 上 的 大 量 
日 志 ， 以 找到 给 出 正确 改 前 值 的 更 新 记录 。 最 后 一 种 方法 不 需要 访问 磁盘 ,但 主 存 日志” 可 能 
消耗 很 大 一 部 分 主 存 。 


8. 1.6 成 组 提交 

在 某 些 情况 下 ， 即 使 我 们 不 立即 将 日 志 中 的 提交 记录 刷新 到 磁盘 ， 我 们 也 可 以 避免 读 脏 数 
据 。 只 要 我 们 按 写 日 志 记 录 的 顺序 刷新 它们 ， 我 们 就 可 以 在 提交 记录 写 到 位 于 缓冲 区 的 日 志 中 
以 后 立即 释放 锁 。 

例 8.5 假设 事务 T, EX, R, HHF COMMIT 记录 写 入 日 志 , 但 日 志 记录 仍 保留 在 组 
HWER, RIR T, 的 提交 记录 能 否 在 骨 演 后 依然 存在 尚未 知晓 ， 且 从 这 种 意义 上 来 说 TT 还 没有 提 
Z, 但 我 们 仍 将 释放 T, 的 锁 。 接 下 来 ,7 读 对 并 “提交 ”， 但 它 的 提交 记录 也 仍然 保留 在 缓冲 区 
中 ,位 于 了 的 提交 记录 之 后 。 由 于 我 们 按 写 日 志 记录 的 顺序 将 它们 刷新 到 磁盘 ， 恢 复 管理 器 只 
有 在 认为 T 也 已 经 提交 (因为 其 提交 记录 已 到 达 磁 盘 ) 时 才 会 认为 7 已 经 提交 。 因 此 ,恢复 管 理 
器 可 能 遇 到 以 下 两 种 情况 之 一 : 

1. 7 的 提交 记录 到 达 磁 盘 。 那 么 不 管 7 的 提交 记录 是 否 到 达 磁 盘 ， 我 们 都 可 以 确定 T, 没有 
从 未 提交 事务 读 工 。 

2. T, 没有 提交 到 磁盘 。 那 么 7, 也 没有 提交 ， 这 两 个 事务 都 被 恢复 管理 器 中 止 。 这 种 情况 下 ， 
T, 从 未 提交 事务 读 导 ， 这 对 数据 库 没 有 任何 影响 。 

相反 地 ， 假 设 包含 7, 提交 记录 的 缓冲 区 已 刷新 到 磁盘 (例如 ， 由 于 缓冲 区 管理 器 决定 将 该 组 
冲 区 用 于 别 的 目的 ) ， 但 包含 7, 提交 记录 的 缓冲 区 尚未 刷新 到 磁盘 。 如 果 在 这 时 发 生 骨 省， 那么 
在 恢复 管理 器 看 来 7 未 提交 而 T, 已 提交 。 所 产生 的 影响 将 在 数据 库 中 得 到 永久 的 反映 ， 然 而 
这 一 影响 建立 在 7, 对 了 的 脏 读 上 。 口 

从 例 8.5 我 们 可 以 得 到 这 样 的 结论 : 我 们 可 以 在 事务 提交 记录 刷新 到 磁盘 前 释放 锁 。 这 一 策 
略 通常 称 为 成 组 提交 ， 它 指 的 是 ， 

。 在 事务 完成 且 提 交 日 志 记 录 至 少 出 现在 缓冲 区 中 以 前 不 能 释放 锁 。 

。 日 志 记 录 按 创建 的 顺序 刷新 。 

与 8.1.3 节 所 讨论 的 要 求 "可 恢复 调度 ”的 策略 一 样 ， 成 组 提交 保证 从 不 读 脏 数据 。 


8.1.7 逻辑 日 志 

我 们 在 8. 1.5 节 中 看 到 ， 如 果 封 锁 的 单位 是 块 或 页 ， 那 么 脏 读 的 修复 比较 容易 。 但 是 ， 当 数 
据 库 元 素 是 块 时 至 少 有 两 个 问题 。 

1. 所 有 日 志方 式 都 要 求 在 日 志 中 记录 数据 库 元 素 的 新 值 、 旧 值 或 二 者 都 记录 。 如 果 块 中 变 
化 较 小 ， 例 如 改写 一 个 元 组 的 某 个 属性 或 插入 、 删 除 一 个 元 组 ， 那 么 将 有 大 量 的 元 余 信息 写 人 日 
志 中 。 

2. 对 于 调度 可 恢复 的 要 求 ， 即 只 有 提交 后 才能 释放 锁 ， 可 能 严重 抑制 并 发 性 。 例 如 ， 回 忆 一 
下 7.7.1 节 中 对 使 用 B - 树 访问 数据 时 提前 释放 锁 的 好 处 所 进行 的 讨论 。 如 果 我 们 要 求 事务 占有 锁 
直到 提交 ， 就 得 不 到 这 一 好 处 ， 并 且 实际 上 在 任何 时 刻 我 们 都 只 允许 一 个 写 事务 访问 B - 树 。 
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什么 时 候 事务 真正 提交 ? 

成 组 提交 的 微妙 之 处 提醒 我 们 ,已 经 完成 的 事务 在 它 完成 工作 到 它 真正 “提交 ”之 间 可 以 
有 几 种 不 同 的 状态 ， 所 谓 真 正 提 交 指 在 任何 情况 下 (包括 系统 故障 发 生 时 ) 事 务 所 产生 的 影响 
都 不 会 丢失 。 正 如 我 们 在 第 6 章 提 到 的 那样 ， 事 务 可 能 已 经 完成 工作 , “甚至 已 将 COMMIT 记 
录 写 到 位 于 主 存 缓冲 区 的 日 志 中 ,但 当 系 统 故障 发 生 并 且 COMMIT 记录 尚未 到 达 磁 盘 时 ， 该 
事务 所 产生 的 影响 仍 可 能 丢失 。 此 外 ,我 们 在 6.5 节 中 看 到 ， 即 使 COMMIT 记录 已 在 磁盘 上 ， 
但 如 果 还 没有 转 储 到 备份 中 ， 那 么 介质 故障 仍 可 能 导致 事务 被 撤销 ， 且 事务 所 产生 的 影响 
丢失 。 

在 没有 故障 发 生 时 ， 各 事务 必然 都 会 从 完成 工作 开始 进一步 推进 ， 直 到 使 自己 产生 的 影 
响 甚 至 在 介质 故障 后 也 能 得 到 保留 ， 从 这 一 意义 上 来 说 ， 所 有 的 这 些 状态 都 是 等 价 的 。 然 
而 ， 当 我 们 需要 考虑 故障 和 恢复 时 ， 认 识 这 些 在 无 故障 情况 下 都 可 以 被 非 正 规 地 认为 “已 提 
交 ” 的 状态 之 间 的 差别 是 很 重要 的 。 


这 些 因素 推动 了 逻辑 日 志 的 使 用 。 逻 辑 日 志 中 只 描述 块 中 的 变化 。 根 据 所 发 生变 化 的 性 质 ， 
复杂 程度 也 有 所 不 同 。 

1. 数据 库 元 素 的 少量 字 节 改变 ， 例 如 更 新 一 个 定 长 字段 。 这 一 情况 可 以 用 一 种 直截了当 的 方 
式 来 处 理 ， 即 我 们 只 记录 改变 的 字 节 及 其 位 置 。 例 8.6 将 说 明 这 一 情况 以 及 合适 的 更 新 记录 形式 。 

2. 数据 库 元 素 的 改变 描述 简单 ， 易 于 恢复 ,但 它 产 生 的 影响 是 改变 了 该 数据 库 元 素 的 大 多 
数 或 全 部 字 节 。 一 种 常见 的 情况 是 ， 记 录 的 一 个 变 长 字段 改变 ， 该 记录 的 大 部 分 甚至 其 他 记录 需 
要 在 块 内 滑动 。 这 种 情况 在 例 8. 7 中 讨论 。 块 的 新 值 和 旧 值 看 来 差别 很 大 ， 除 非 我 们 发 现 并 指明 
导致 变化 的 简单 原因 。 

3. 变化 影响 到 数据 库 元 素 的 许多 字 节 ， 且 进一步 的 改变 可 能 使 这 一 变化 变 得 不 可 撤销 。 这 
种 情况 是 真正 的 “逻辑 " 日志， 因为 我 们 不 能 将 undo/redo 过 程 视 为 发 生 在 数据 库 元 素 上 ， 而 应 视 
为 发 生 在 数据 库 元 素 所 代表 的 高 层 “ 逻辑 "结构 上 。 在 例 8. 8 中 ， 我 们 将 以 B - 树 为 例 来 说 明 罗 辑 
日 志 的 这 一 复杂 形式 ，B - 树 就 是 一 种 用 磁盘 块 这 样 的 数据 库 元 素 表示 的 逻辑 结构 。 

例 8. 6 假设 数据 库 元 素 是 块 ， 每 块 中 包含 某 个 关系 的 一 个 元 组 集合 。 我 们 可 以 用 一 个 日 志 
记录 来 表述 一 个 属性 的 更 新 ， 这 一 日 志 记录 说 明 “ 元 组 上 的 属性 a 的 值 从 v 变 到 o” o ERRIZ 
有 亲 空 间 中 插入 一 个 新 元 组 ， 可 以 表述 为 “具有 值 (a,，a,，…，o) 的 元 组 被 插入 ， 其 起 始 偏 移 量 
为 p”。 除 非 改 变 的 属性 或 插入 的 元 组 与 块 大 小 相当 ， 和 否则 这 些 记 录 占 据 的 空间 将 远 远 小 于 整个 
块 。 此 外 ， 它 们 既 能 服务 于 undo 操作 ， 又 能 服务 于 redo 操作 。 

注意 ， 这 些 操作 都 是 寡 等 的 ; 在 块 上 将 这 样 的 一 个 操作 执行 多 次 ， 其 效果 等 同 于 执行 一 次 。 
类 似 地 ， 它 们 所 隐 含 的 逆 操 作 即 将 i[ 4] 的 值 从 o 恢复 成 w 以 及 删除 元 组 上 也 是 寡 等 的 。 因 此 ， 
这 种 类 型 的 记录 在 恢复 中 就 可 以 像 整个 第 6 章 中 的 更 新 日 志 记 录 那 样 使 用 。 口 

例 8. 7 ”再 次 假设 数据 库 元 素 是 存储 元 组 的 块 ， 但 元 组 中 存在 变 长 字段 。 如 果 像 例 8. 6 所 描 
述 的 那样 的 改变 发 生 ， 我 们 可 能 需要 移动 块 中 的 大 部 分 东西 ， 以 给 变 长 后 的 字段 腾 出 空间 或 在 
字段 变 短 时 维护 空间 。 在 极端 的 情况 下 ， 我 们 可 能 还 必须 创建 溢出 块 (回忆 一 下 2.8 节 ) 以 容纳 
原 块 中 的 部 分 内 容 ， 或 由 于 字段 变 短 而 使 我 们 可 以 将 两 块 的 内 容 合 为 一 块 时 ， 我 们 还 可 以 删除 
溢出 块 。 

只 要 块 及 其 溢出 块 被 看 作 一 个 数据 库 元 素 ， 使 用 被 改变 字段 的 旧 值 和 /或 新 值 来 撤销 或 重建 
修改 就 比较 容易 。 但 是 ， 块 及 其 溢出 块 必 须 看 作 是 在 一 个 “还 辑 ” 的 层次 上 容纳 了 某 些 元 组 。 在 
undo 和 redo 后 ， 我 们 甚至 不 能 将 这 些 块 中 的 字 节 恢复 到 原 有 状态 ， 因 为 可 能 由 于 其 他 字段 长 度 
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改变 而 导致 块 的 重组 。 然 而 ， 如 果 我 们 认为 表示 某 些 元 组 的 块 的 集合 是 数据 库 元 素 ， 那 么 redo 
和 undo 可 以 真正 地 恢复 元 素 的 逻辑 “状态 ”。 口 

但 是 ， 正如 我 们 在 例 8.7 中 提 到 的 那样 ， 通 过 溢出 块 机 制 将 块 当 作 可 扩展 的 来 看 待 有 时 是 不 
可 能 的 。 这 样 我 们 只 能 在 一 个 比 块 高 的 层次 上 执行 undo 和 redo 动作 。 下 一 个 例子 讨论 B - 树 索 
引 中 块 的 管理 不 允许 溢出 块 这 一 重要 情况 ， 这 时 我 们 必须 认为 undo 和 redo 发 生 在 B - 树 自身 这 
一 “逻辑 ”层次 上 而 不 是 发 生 在 块 上 。 

例 8.8 我 们 考虑 为 B - 树 结 点 记录 逻辑 日 志 的 问题 。 我 们 并 不 将 整个 结 点 ( 块 ) 的 新 值 和 / 
或 旧 值 写 人 日 志 中 ， 而 是 写 人 一 个 描述 变化 的 简短 记录 。 这 样 的 变化 包括 ; 

1. 播 和 信和 删除 子 结 点 的 一 个 键 / 指 针对 。 

2. 改变 对 应 于 指针 的 键 值 。 

3. 分 裂 和 合并 结 点 。 

这 些 变化 中 的 每 一 个 都 可 以 用 简短 的 日 志 记 录 来 表示 ， 即 使 是 分 裂 操 作 也 只 需要 指明 分 裂 
发 生 在 哪里 而 新 结 点 又 在 哪里 。 类 似 地 ， 合 并 只 需要 指明 涉及 的 结 点 ， 因 为 合并 方式 由 所 使 用 的 
B - 树 管理 算法 决定 。 

在 满足 可 恢复 调度 的 要 求 时 ， 使 用 这 几 类 逻辑 更 新 记录 可 以 比 不 用 的 情况 下 更 早 地 释放 锁 。 
原因 在 于 ， 只 要 事务 只 利用 B - 树 来 定位 所 需 访问 数据 的 位 置 ，B - 树 块 的 脏 读 对 读 这 些 块 的 事 
务 来 说 就 永远 也 不 是 问题 。 

例如 ， 假 设 事务 7 读 取 叶 结 点 N， 而 最 后 写 入 N 的 事务 0 后 来 中 止 ，N 上 的 某 些 改变 ( 例 
如 ， 由 于 UU 插入 一 个 元 组 而 导致 N 中 插入 一 个 新 的 键 /指针 对 ) 需 要 撤销 。 如 果 了 也 向 NN 中 插入 
了 键 /指针 对 ， 那 么 N 就 不 可 能 恢复 到 U0 修改 它 以 前 的 状态 。 但 是 ,UV 对 于 的 影响 可 以 撤销 ; 
在 这 个 例子 中 我 们 将 删除 上 U 插 入 的 键 /指针 对 。 所 得 到 的 NN 与 0 执行 操作 前 不 一 样 ; CCAS H 
了 所 进行 的 插入 。 然 而 ， 数 据 库 并 没有 不 一 致 ， 因 为 整个 B - 树 仍 只 反映 提交 事务 所 做 的 改变 。 
也 就 是 说 ， 我 们 已 经 在 一 个 逻辑 层次 上 而 不 是 物理 层次 上 恢复 了 B - 树 。 口 


8.1.8 从 逻辑 日 志 中 恢复 

如 果 逻 辑 动作 是 宪 等 的 例如， 它们 可 以 被 重复 任意 次 而 不 造成 任何 损失 ， 那 么 我 们 就 能 很 
容易 地 通过 逻辑 日 志 进行 恢复 。 例 如 ， 我 们 在 例 8.6 中 讨论 的 如 何在 逻辑 日 志 中 用 元 组 和 元 组 在 
块 中 所 处 的 位 置 来 表示 一 次 元 组 的 插入 操作 。 如 果 我 们 在 相同 的 位 置 写 和 该 元 组 两 次 或 者 多 次 ， 
那么 其 效果 和 它 被 写 入 一 次 是 等 效 的 。 因 此 ， 在 进行 恢复 时 ， 当 我 们 需要 对 包含 一 个 插入 元 组 操 
作 的 事务 进行 redo 操作 时 ， 我 们 可 以 在 恰当 块 中 的 恰当 位 置 上 插入 多 次 ， 而 不 需要 考虑 我 们 是 
否 已 经 插入 了 该 元 组 。 

与 此 相反 ,考虑 一 下 例 8.7 和 例 8. 8 中 元 组 可 以 在 块 中 或 是 块 间 移 动 的 情况 。 那 么 ， 我 们 无 
法 将 一 个 特定 的 位 置 和 需要 插入 的 元 组 进行 关联 ; 我 们 能 做 的 最 好 的 办 法 就 是 在 日 志 中 加 入 类 
似 “ 元 组 i 在 块 B 中 的 某 处 被 插入 ”的 动作 。 如 果 我 们 在 恢复 的 时 候 需 要 对 : 的 插入 进行 redo, R 
们 可 能 会 在 块 B 中 加 入 :的 两 个 副本 。 更 糟糕 的 是 ， 我 们 可 能 无 法 知道 含有 t 的 第 一 个 副本 的 块 
B 是 否 被 写 到 磁盘 。 例 如 ， 另 一 个 对 块 B 上 另 一 个 数据 库 元 素 进行 写 人 的 事务 可 能 导致 块 被 写 
入 磁盘。 

为 了 在 我 们 利用 逻辑 日 志 进 行 恢 复 时 消除 类 似 这 种 情况 的 歧义 ， 一 种 叫 日 志 序号 的 技术 被 
提 了 出 来 。 

。 每 条 日 志 记录 被 赋予 比 前 一 条 记录 大 1 的 编号 ” 。 那 么 ， 一 条 典型 的 逻辑 日 志 记 录 的 形式 





日 事实 上 日 志 序 号 必须 从 0 开始 编号 ， 而 序号 重新 编号 的 时 间 非 常 长 因而 不 会 引起 歧义 。 
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A<L, T, A, B>, HH; 

- 工 是 表示 日 志 序号 的 整数 。 

- 了 是 涉及 的 事务 。 

-4 EFS TADE, 例如,“ 插入 元 组 t” o 

- 8 是 动作 执行 的 块 。 

对 于 每 一 种 动作 ， 都 用 一 个 补偿 动作 来 在 逻辑 上 对 这 个 动作 进行 undo。 例 如 在 例 8. 8 中 
讨论 的 ， 对 于 一 个 动作 ， 补 偿 动作 并 不 一 定 能 让 数据 库 恢复 到 这 个 动作 没有 发 生 的 相同 
的 状态 3S， 但 它 能 将 数据 库 恢复 到 逻辑 上 与 $ 等 价 的 状态 。 例 如 ,“ 插 入 元 组 i” 的 补偿 动 
作为 “删除 元 组 t” o 

如 果 事 务 了 中 止 ， 了 中 执行 的 每 一 个 动作 的 补偿 动作 都 会 被 执行 ， 而 补偿 动作 的 执行 也 
会 被 记录 到 日 志 中 。 

。 每 一 个 块 在 块 首 维护 最 后 对 该 块 产生 影响 的 动作 的 日 志 序 号 。 

假设 我 们 现在 需要 在 系统 衣 溃 后 利用 逻辑 日 志 进 行 恢 复 。 下 面 是 对 需要 采取 的 步 又 的 概述 。 

1. 我 们 的 第 一 步 是 对 崩 泪 时 数据 库 的 状态 进行 重建 ， 包 括 当 前 的 数据 值 在 缓存 中 因而 被 丢 
失 的 块 。 我 们 要 做 的 是 : 

a) 找 到 日 志 中 最 近 的 检查 点 ， 并 由 它 确 定 当 时 处 于 活动 状态 的 事务 的 集合 。 

b) 对 于 每 一 条 日 志 记录 <L, T, A, :B > ， 比 较 块 B 上 的 日 志 序 号 NN 和 当前 日 志 记 录 的 日 志 
FPS Lo WRN <L, Mill redo 动作 4; 该 动作 没有 在 块 上 执行 。 反 之 ， 当 wz 工时 ， 就 什么 也 不 
做 ; 动作 4 已 经 对 块 B 产 生 了 影响 。 

c) 当 遇 到 所 有 关于 事务 7 开始 、 提 交 或 是 中 止 的 日 志 记 录 ， 对 活动 事务 集合 进行 相应 的 
调整 。 

2. 当 我 们 到 达 日 志 结束 位 置 时 事务 集合 中 依旧 处 于 活动 状态 的 事务 需要 被 中 止 。 我 们 要 做 
的 是 ; | 

a) 再 次 对 日 志 进 行 扫描 ， 这 次 扫描 从 末尾 逐个 向 前 扫描 直到 上 一 个 检查 点 。 每 当 我 们 遇 到 
一 个 需要 被 中 止 的 事务 了 的 日 志 记 录 <L，T,，4,，B > ， 在 块 妃 上 对 4 做 补偿 动作 ， 并 将 补偿 动 
作 的 执行 记录 到 日 志 中 。 

b) 如 果 我 们 需要 中 止 一 个 在 最 近 的 检查 点 之 前 开始 的 事务 ( 例如， 那个 事务 属于 该 检查 点 的 
活动 列表 中 ) ， 那 么 继续 向 前 扫描 日 志 直 到 每 个 事务 的 起 始 记 录 都 被 找到 。 

c) 为 每 一 个 我 们 需要 中 止 的 事务 在 日 志 中 写 人 中 止 的 记录 。 


8. 1.9 习题 

习题 8. 1. 1 往 如 下 动作 序列 
rı(A); 71(B); wi(A); wi(B); 
中 插入 ( 像 7.3 节 中 那样 的 单一 类 型 ) 锁 ， 并 使 事务 T, 满足 以 下 条 件 的 所 有 的 方式 有 哪些 ? 
a) 两 阶段 封锁 但 不 是 严格 的 。 


b) 两 阶段 封锁 日 是 严格 的 。 
习题 8. 1.2 假设 下 面 的 各 个 动作 序列 后 面 都 跟着 事务 T, 的 中 止 动作 。 说 说 哪些 事务 需要 回 滚 。 


a) rı(A); wi(B); ra(B); w3(C); ra(C)i we(D); 

b) rs(A); r2(A); (A); wi(B); ra(B); r2(B); ws(C); r2(C); 
c) 73(A); r2(A); 71(A); wi(B); r2(B); ws (C); r2(C); 

d) r1(A); r3(B); wi(B); ws(C); r2(B); r2(C); wa(D); 
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习题 8. 1.3 给 出 一 个 有 共享 和 排他 锁 但 并 不 是 严格 的 ACR 调度 的 例子 。 

习题 8. 1.4 考虑 习题 8. 1.2 中 的 各 个 动作 序列 ， 但 现在 假设 三 个 事务 都 提交 并 在 它们 的 最 后 一 个 动作 后 立 
即将 提交 记录 写 和 日志 中 。 但 是 ， 般 省 发 生 了 ， 并 且 在 骨 省 发 生 以 前 日 志 尾 部 尚未 写 到 磁盘 ， 因 而 丢失 。 
根据 丢失 日 志 尾部 的 起 始点 ， 说明: 
i 哪些 事务 可 以 认为 是 未 提交 的 ? 
i 在 恢复 过 程 中 是 否 产生 脏 读 ? 如 果 是 ， 哪 些 事务 需要 回 滚 ? 
ii 如果 丢失 的 日 志 不 是 尾部 ， 而 是 中 间 的 一 部 分 ， 那 么 还 可 能 产生 哪些 脏 读 ? 

! 习题 8. 1.5 考虑 以 下 两 个 事务 : 

Tı: w (A); wi(B); r1(C); cai 
Tz: we(A); ro(B); we(C); c2; 
a)T, ALT, 中 有 多 少 调度 是 可 恢复 的 ? 
b) 有 多 少 是 ACR 调度 ? 
c) 有 多 少 既 是 ACR 调度 又 是 可 串 行 化 调度 ? 
d) 有 多 少 既 是 可 恢复 的 又 是 可 串 行 化 的 ? 


8.2 死 锁 


我 们 已 经 几 次 观察 到 并 发 执行 的 事务 由 于 竞争 资源 而 到 达 一 个 存在 死 锁 的 状态 : 若干 事务 
中 的 每 一 个 都 在 等 待 被 其 他 事务 占有 的 资源 ， 因 而 每 个 事务 都 不 能 取得 进展 。 
。 即使 是 两 阶段 封锁 事务 的 普通 操作 也 可 以 导致 死 锁 ， 在 7. 3.4 节 中 我 们 看 到 了 这 是 怎样 
发 生 的 ， 其 原因 在 于 一 个 事务 封锁 了 另 一 事务 也 需要 封锁 的 东西 。 
© 将 锁 从 共享 升级 为 排他 的 能 力 可 能 导致 死 锁 ， 在 7.4. 3 节 中 我 们 看 到 了 这 是 怎样 发 生 的 ， 
其 原因 在 于 每 个 事务 在 同一 元 素 上 持 有 共享 锁 并 且 希 望 将 锁 升级 。 
处 理 死 锁 的 方法 大 致 分 为 两 种 。 我 们 可 以 检测 死 锁 并 进行 修复 ， 也 可 以 对 事务 进行 管理 ,使 
死 锁 永远 都 不 可 能 形成 。 


8.2.1 超时 死 锁 检测 

当 存 在 死 锁 时 ， 对 该 状态 进行 修复 以 使 所 有 涉及 的 事务 都 能 继续 执行 通常 是 不 可 能 的 。 因 
此 ， 至 少 一 个 事务 必须 中 止 并 重新 开始 。 

检测 并 解决 死 锁 最 简单 的 方法 是 利用 超时 。 对 事务 活路 的 时 间作 出 限制 ， 如 果 事 务 超过 这 
个 时 间 就 将 其 回 滚 。 例 如 ， 在 一 个 典型 事务 执行 时 间 为 几 毫 秒 的 简单 事务 系统 中 ， 以 一 分 钟 为 超 
时 时 间 只 会 影响 到 陷于 死 锁 中 的 事务 。 

注意 ， 当 一 个 死 锁 事务 超时 并 回 滚 后 ， 该 事务 将 释放 锁 和 其 他 资源 。 因 此 ， 死 锁 涉 及 的 其 他 


事务 有 可 能 在 到 达 超 时 限制 前 完成 。 然 而 ， 由 于 死 锁 涉及 的 事务 可 能 几乎 在 同一 时 间 开 始 (否则 ， 
一 个 事务 可 能 在 另 一 事务 开始 前 已 经 完成 ) ， 不 再 陷于 死 锁 中 的 事务 假 超时 也 是 可 能 发 生 的 。 
8.2.2 等 待 图 


由 于 事务 等 待 另 一 事务 持 有 的 锁 而 导致 的 死 锁 问 题 可 以 用 等 待 图 来 检测 ， 等 待 图 表明 哪些 
事务 在 等 待 其 他 事务 持 有 的 锁 。 这 种 图 可 以 用 来 在 死 锁 形成 后 检测 死 锁 ， 也 可 以 用 来 预防 死 锁 
的 形成 。 我 们 假设 是 后 一 种 ， 在 任何 时 候 我 们 都 需要 维护 等 待 图 ， 并 拒绝 在 图 中 产生 环 的 动作 。 

回忆 一 下 ,在 7.5.2 节 中 ， 锁 表 为 每 个 数据 库 元 素 碟 维护 等 待 忒 上 的 锁 以 及 当前 持 有 下 上 
的 锁 的 事务 列表 。 等 待 图 中 对 应 当前 持 有 锁 和 等 待 锁 的 每 个 事务 有 一 个 结 点 。 对 于 结 点 (事务 )7 
和 结 点 U0， 如果 存在 某 个 数据 库 元 素 使 : 

1.U 持 有 4 上 的 一 个 锁 。 

2. 了 等 待 4 上 的 一 个 锁 。 
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3. 除非 0 先 释 放 它 在 4 上 持 有 的 锁 ， 否 则 了 不 能 获得 所 需 封锁 方式 的 锁 。9 
则 图 中 有 从 T 3 UKI, 
如 果 在 等 待 图 中 无 环 ， 那 么 每 个 事务 最 终 都 能 完成 。 至 少 有 一 个 事务 不 在 等 待 其 他 事务 ， 该 
事务 肯定 能 完成 。 这 时 ， 至 少 有 另 一 个 事务 不 在 等 待 ， 这 个 事务 又 能 完成 ; 依 此 类 推 。 
然而 ， 如 果 图 中 有 环 ， 那 么 环 中 的 任何 事务 都 不 能 取得 进展 ， 因 此 存在 死 锁 。 这 时 ， 避 免 死 
锁 的 一 种 策略 是 回 滚 所 提请 求 将 导致 等 待 图 中 出 现 环 的 任 一 事务 。 
例 8.9 假设 我 们 有 下 面 的 四 个 事务 ， 每 个 事务 都 读 一 个 元 素 和 写 另 一 元 素 ; 
Ti: (A); (A); 1(B); wi (B); ui (A); ui (B); 
Te: I2(C); ra(C); le(A); we(A); ue(C); ue(A); 
Ts: 13(B); r3(B); I3(C); w3(C); us(B); us(C); 
Ta: I4(D); ra(D); la(A); wa(A); wa(D); u4(A); 


我 们 使 用 一 个 只 有 一 种 封锁 方式 的 简单 封锁 系统 ， 实 际 上 如 果 我 们 使 用 共享 /排他 系统 ， 我 
们 也 会 发 现 同样 的 效果 。 图 8-4 是 这 四 个 事务 的 一 个 调度 最 开始 的 部 分 。 在 前 四 步 中 ， 每 个 事务 
都 获得 了 该 事务 要 读 的 元 素 上 的 锁 。 在 第 5 步 ，7 试图 封锁 4, 但 由 于 7, 已 持 有 4 上 的 锁 ， 所 
以 这 一 请 求 被 拒绝 。 因 此 ，T, FET, 我们 画 一 条 从 7 的 结 点 到 T, HAR, 








2) l2(C); re(C); 

3) l3(B); r3(B); 

4) ta(D); ra(D); 
5) L(A); 被 拒绝 

6) 13(C); 被 拒绝 


7) 
8) 1,(B); 被 拒绝 








图 8-4 一 个 有 死 锁 的 调度 的 开始 部 分 

类 似 地 ,在 第 6 步 ， 六 对 C 的 封锁 请 求 由 于 T, 而 被 拒绝 ; 在 第 7 AE, T, 对 4 的 封锁 请 求 由 
FT, 而 被 拒绝 。 这 时 的 等 待 图 如 图 8-5 所 示 ， 此 图 中 无 环 。 

在 第 8 AG, T, 必须 等 待 T 在 8 上 持 有 的 锁 。 如 果 我 们 允许 T 等 待 ， 那么 等 待 图 中 将 有 一 个 
ERA Ta T, WT, 的 环 ， 如 图 8-6 所 示 。 由 于 每 一 个 事务 都 等 待 另 一 事务 完成 ， 它 们 都 不 能 取得 
进展 ， 因 此 存在 涉及 这 3 个 事务 的 死 锁 。T, 碰巧 也 不 能 完成 ， 尽 管 它 不 在 环 中 ,但 它 的 进展 依 
RT T, 所 取得 的 进展 。 

@) 





图 8-5 图 8-4 第 7 步 后 的 等 待 图 图 8-6 有 环 的 等 待 图 ， 该 环 由 图 8-4 中 第 8 步 导致 


O 通常 情况 下 ， 例 如 在 共享 锁 和 排他 锁 的 情况 下 ， 每 个 等 待 的 事务 都 必须 等 到 当前 的 所 有 锁 持 有 者 释放 其 锁 ， 但 
在 某 些 封锁 方式 的 系统 中 ， 事 务 可 以 在 某 个 当前 被 持 有 的 锁 释 放 后 就 能 获得 其 锁 ; 见习 题 8. 2.5, 
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BERBERA KE FS, T 必须 回 滚 ， 所 产生 的 等 待 图 如 图 8-7 Ro T, 放 
弃 自 己 在 4 上 锁 ， 该 锁 可 以 给 了 RT, BRA T, MAT, USER, Wal, 释放 自己 在 4 和 
C 上 的 锁 。 现 在 需要 封锁 C H T, 和 需要 封锁 4 的 7 都 可 以 完成 。 在 某 个 时 候 ，7, 重新 开始 ,但 
E T, T, AT, 完成 以 前 它 不 能 获得 4 A BB ERB. 口 


8.2.3 通过 元 素 排 序 预防 死 锁 

现在 ， 我 们 考虑 预防 死 锁 的 几 种 其 他 的 方法 。 第 一 种 方法 需要 我 们 将 数据 库 元 素 按 某 种 任 
意 但 固定 的 顺序 排列 。 例 如 ， 如 果 数 据 库 元 素 是 块 ， 我 们 可 以 将 它们 按 物理 地 址 的 字典 顺序 
排列 。 

如 果 每 个 事务 申请 元 素 上 的 锁 都 必须 按 顺序 ， 那 O 
么 就 不 会 由 于 事务 等 待 锁 而 导致 死 锁 。 为 了 证 明 这 一 
点 ， 假设 T, 等 待 T, 在 4， 上 持 有 的 锁 ; T, 等 待 T, 在 A, 
上 持 有 的 锁 ; 依 此 类 推 ;而 了 工 在 等 待 7,_, 在 4,., 上 持 
有 的 锁 ; 并 且 7, 在 等 待 7, 在 4, 上 持 有 的 锁 。 由 于 7， GQ) 
RAA 上 的 锁 而 又 等 待 4,， 在 元 素 的 顺序 中 必然 有 3 
A, <4,。 类 似 地 ， 对 ;=3， 4, =, n, BA <A 1B 图 8-7 T, 回 滚 后 的 等 待 图 
是 ， 由 于 7 RA A 上 的 锁 而 又 等 待 4.， 这 说 明 A, < 4,。 我 们 现在 有 A, <A, <A.) < … <A, < 
4!， 这 是 不 可 能 的 ， 因 为 这 蕴含 着 4A, < 4 。 

例 8. 10 我 们 假设 元 素 按 字母 顺序 排列 。 那 么 ， 如 果 例 8.9 中 的 四 个 事务 要 按 字母 顺序 封 
锁 元 素 的 话 ， 则 T, 和 7, 需要 重 写 ， 把 封锁 元 素 的 顺序 反 过 来 。 因 此 ， 这 四 个 事务 现在 是 : 


Ti: (A); ri(A); 1(B); wi(B); wi(A); ua (B); 
2: Ll2(A); l2(C); r2(C); we(A); v2(C); u2(A); 
3: ls(B); rs(B); la(C); wa(C); us(B); us(C); 
4: l4(A); l4(D); r4(D); wa(A); ua(D); u4(A); 


图 8-8 给 出 了 执行 时 机 与 图 8-4 相同 时 这 些 事务 的 执行 情况 。7 开始 并 获得 4 上 的 锁 。7, 接 
着 开始 并 试图 获得 4 上 的 锁 ， 但 必须 等 待 7T,。 然 后 ，7T, 开始 并 获得 8B 上 的 锁 , 但 7 不 能 开始 ， 
它 也 需要 封锁 4， 因此 它 必须 等 待 。 


Soo 








Ti Tə Ts 了 4 
1) (A); 71 (A); 
2) la(4); 被 拒绝 
3) 13(B); r3(B); 
4) L(A); 被 拒绝 
5) la(C); ws(C); 
6) us(B); us(C); 
7) 4(B); w (B); 
8) ui(A); wi (B); 
9) L(A); l2(C); 
10) ra(C); we(A); 
11) u2(A); u2(C); 
12) 14(A); I(D); 
13) ra(D); walA); 
14) u4(A); ua(D); 








图 8-8 按 字母 顺序 封锁 元 素 可 预防 死 锁 
EFT, 停顿 ， 不 能 继续 执行 下 去 ， 而 按照 图 8-4 中 的 顺序 ， 接 下 来 是 7,。7 可 以 获得 C 上 
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的 锁 ， 然 后 它 在 第 6 PER WE, ATT, 在 B 和 C 上 的 锁 释 放 ，T 在 第 8 步 得 以 完成 。 这 时 ， 
A 上 的 锁 成 为 可 获得 的 ， 而 我 们 假定 按 先 来 先 服务 的 原则 将 此 锁 给 TT, RA, T, 获得 它 所 需要 
的 两 个 锁 并 在 第 11 步 完成 。 最 后 ，7, 获得 其 锁 并 完成 。 口 


8. 2.4 ”通过 时 间 戳 检测 死 锁 

正如 在 8.2.2 节 讨 论 的 那样 ， 我 们 可 以 通过 维护 等 待 图 来 检测 死 锁 。 然 而 ， 等 待 图 可 能 很 
大 ， 而 每 次 事务 需要 等 待 锁 时 分 析 等 待 图 看 是 否 有 环 可 能 很 耗 时 。 维 护 等 待 图 的 另 一 种 可 选 方 
案 是 将 每 个 事务 与 一 个 时 间 戳 关联 起 来 。 该 时 间 戳 只 用 于 死 锁 检测 ; 它 和 7. 8 节 中 用 于 并 发 控制 
的 时 间 戳 不同 ， 甚 至 与 使 用 基于 时 间 截 的 并 发 控制 机 制 也 不 同 。 特 别 地 ， 如 果 事 务 回 滚 ， 那 么 它 
以 一 个 新 的 、 较 晚 的 并 发 时 间 惟 重新 开始 ,但 其 用 于 死 锁 检测 的 时 间 稚 从 不 改变 。 

HEARERS 了 必须 等 待 另 一 事务 U 持 有 的 锁 时 使 用 。 根 据 是 7 还 是 U 更 老 一 些 (时 间 惟 更 
早 ) ， 可 能 发 生 两 种 不 同 的 情况 。 两 种 不 同 的 策略 可 以 用 于 管理 事务 和 检测 死 锁 。 

1. 等 待 - 死 亡 方案 : 

a)i T te UZC THRHR U RER), ARY TE U 

b) WMR UTE, MATHER”; THAR, 

2. 伤害 -等 待 方案 : 

WWR TEUZ, 它 将 “伤害 ”U; 这 样 的 伤害 通常 是 致命 的 : U 必须 回 滚 并 放弃 了 需要 从 U 
得 到 的 所 有 锁 。 一 个 例外 是 在 “伤害 ”生效 前 U 已 经 完成 并 释放 自己 的 锁 。 在 这 种 情况 下 , U 得 
以 存活 并 且 不 需要 回 滚 。 

b) 如 果 U 比 T 老 ， 那么 7 等 待 U 持 有 的 锁 。 





T Tə Ts 了 4 

1) 4 (A); r(A) 
2) L(A); 死亡 

3) Is(B); r3(B); 

4) 14(A); FETE 
5) I3(C); wa(C); 

6) u3(B); ua(C); 

7) 1(B); wi(B); 

8) ui(A); 1 (B); 

9) 14(A); 4(D); 
10) 12(4); 等 待 
11) ra(D); wa(A); 
12) ua(A); us(D); 
13) L(A); (C); 
14) ra(C); w2(A); 

15) u( A); u2(C); 


图 8-9 用 等 待 -死亡 方案 检测 死 锁 的 事务 动作 


例 8.11 以 例 8. 10 中 的 事务 为 例 ， 我 们 来 考虑 等 待 - 死亡 方案 。 我 们 将 假设 Ta Ta Ta 
T, AAA AUF; BT, 是 最 老 的 事务 。 我 们 还 假设 当 事 务 回 滚 时 ， 该 事务 的 重新 启动 不 会 很 
快 ， 不 会 在 其 他 事务 完成 前 变 得 活跃 。 

图 8-9 给 出 了 等 待 -死亡 方案 下 一 个 可 能 的 动作 序列 。T, 首先 获得 4 上 的 锁 。 当 7 请 求 4 
上 的 锁 时 ，7, ÆC, AA T, KT, 老 。 在 第 3 步 ，7T, GB 上 的 锁 ，, 但 在 第 4 步 7 请 求 4 上 的 
锁 ， 由 于 4 上 锁 的 持 有 者 T, ET, 老 ， 因 而 7T 死亡 。 接 下 来 ,7 获得 C 上 的 锁 并 完成 。 当 7 继 
续 时 ， 它 发 现 召 上 的 锁 可 以 获得 ， 因 而 也 在 第 8 步 完成 。 

现在 ， 回 滚 的 两 个 事务 T, 和 7 重新 开始 。 就 死 锁 而 言 ， 它 们 的 时 间 惟 不 变 ; T, 仍然 比 7 
老 。 但是， 我 们 假设 在 第 9 步 7, 首先 重启 ， 因 此 在 第 10 步 当 7 请求 4 上 的 锁 时 ，7, 被 迫 等 待 
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{ERY Pik, T, 在 第 12 步 完 成 ， 然 后 T, 得 以 运行 至 结束 ， 正 如 最 后 3 步 所 给 出 的 那样 。 口 


基于 时 间 戳 的 死 锁 检测 发 挥 作用 的 原因 
我 们 断言 在 等 待 -死亡 方案 和 伤害 - 等 待 方案 下 等 待 图 中 都 不 会 出 现 环 ， 因 而 不 存在 死 
锁 。 假 设 存在 环 ，7, 一 7, 一 7 一 Tl， 有 一 个 事务 最 老 ， BRET, 
在 等 待 -死亡 方案 中 只 会 等 待 比 较 新 的 事务 。 因 此 ，T 不 可 能 等 待 T,，， 因 为 T 肯定 比 
T, 老 。 在 伤害 -等 待 方 案 中 只 会 等 待 比较 老 的 事务 。 因 此 ，T, 不 可 能 等 待 比较 新 的 7T，。 我 们 
断定 环 不 可 能 存在 ， 因 此 不 存在 死 锁 。 


例 8.12 下 面 ， 我 们 考虑 同样 的 事务 在 伤害 - 等 待 策略 下 的 运行 ， 如 图 8-10 所 示 。 和 图 8- 
9 中 一 样 ，7 首先 封锁 4。 当 第 2 步 中 T, 请 求 4 上 的 锁 时 ， 它 需要 等 待 ， 因 为 7 ET 老 。 在 第 
3 6 T, 获得 在 B 上 的 锁 后 ，7, 也 不 得 不 等 待 4 上 的 锁 。 




















Tı Tz Ts Ta 

1) (A); Tı (A); 

2) l2(4); 等 待 

3) l3(B); r3(B); 

4) UA) 等 待 

5) 1(B); wi(B); 被 伤害 

6) ui(A); u1(B); 

7) L(A); ta(O); 

8) r2(C); we(A); 

9) uz(A); u2(C); 
10) l4 (4); la(D); 
11) r4(D); wa(A); 
12) ua(A); u4(D); 
13) 13(B); r3(B); 
14) (C); wa(C); 
15) u3(B); us(C); 











图 8-10 用 伤害 - 等 待 方案 检测 死 锁 的 事务 动作 


RE, BRT 继续 执行 并 在 第 5 步 请 求 B 上 的 锁 。 该 锁 已 被 7, HA, 但 7 Er 老 。 因 此 ， 
T HE” To HPT; 尚 未 完成 ， 这 一 伤害 是 致命 的 : T 放弃 自己 的 锁 并 回 滚 。 因 此 ,TT 得 以 
完成 。 

当 使 4 上 的 锁 可 用 后 ， 假 设 该 锁 被 7 得 到 ， 这 样 7 就 能 够 继续 执行 。 在 T, 后 ， 该 锁 被 
T, RIF, T, 继续 执行 至 完成 。 最 后 ，7, 重启 并 在 不 受 干扰 的 情况 下 完成 。 口 


8.2.5 死 锁 管理 方法 的 比较 

在 等 待 - 死亡 方案 和 伤害 - 等 待 方案 中 ， 较 老 的 事务 杀 死 较 新 的 事务 。 由 于 事务 以 旧时 间 
截 重启 ， 最 终 每 个 事务 都 将 变 成 系统 中 最 老 的 事务 而 必然 能 完成 。 每 个 事务 最 终 都 能 完成 的 这 
一 保证 称 为 无 饿 死 。 注 意 ， 本 节 描 述 的 其 他 方法 不 一 定 能 防止 饿 死 ， 如 果 不 采取 额外 的 措施 ， 事 
务 可 能 不 断 重启 ， 陶 入 死 锁 ， 然 后 回 滚 。 参 见习 题 8. 2. 6。 

然而 ， 等 待 -死亡 方案 和 伤害 -等 待 方案 的 行为 有 着 细微 的 差别 。 在 伤害 - 等 待 中 ， 只 要 老 
事务 请 求 较 新 的 事务 持 有 的 锁 ， 较 新 的 事务 就 被 杀 死 。 如 果 我 们 假设 事务 在 开始 后 较 近 的 时 间 
内 获得 锁 ， 那 么 老 事务 抢夺 新 事务 持 有 的 锁 的 情况 就 很 少 发 生 。 因 此 ， 我 们 可 以 预见 在 伤害 - 等 
待 中 回 滚 比较 少见 。 

另 一 方面 ， 当 回 滚 发 生 时 ， 等 待 - 死亡 方案 回 滚 仍 处 于 获得 锁 这 一 阶段 的 事务 ， 这 一 阶段 被 
假定 是 事务 中 最 早 的 阶段 。 因 此 ， 尽 管 等 待 - 死亡 可 能 比 伤害 - 等 待 回 滚 的 事务 多 ， 但 这 些 事务 
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常常 只 做 了 极 少 的 工作 。 与 此 相 比 ， 当 伤害 - 等 待 方案 回 滚 事务 时 ， 该 事务 可 能 已 经 获得 自己 的 
锁 并 且 它 的 活动 可 能 已 经 占用 了 大 量 的 处 理 器 时 间 。 因 此 ， 根 据 处 理事 务 的 数量 不 同 ， 两 种 方案 
都 可 能 比 另 一 种 浪费 的 工作 更 多 。 
我 们 还 应 该 比较 等 待 - 死亡 和 伤害 - 等 待 与 直接 构造 和 使 用 等 待 图 的 优 缺 点 。 最 重要 的 几 
点 为 : 
。 等 待 -死亡 和 伤害 - 等 待 的 实现 都 比 维护 或 周期 性 构造 等 待 图 更 容易 。 
。 使 用 等 待 图 能 极 小 化 由 于 死 锁 而 必须 中 止 事务 的 次 数 。 如 果 我 们 中 止 事 务 ， 则 必定 是 真 
的 存在 死 锁 。 另 一 方面 ， 等 待 - 死亡 和 伤害 - 等 待 有 时 都 会 在 并 不 存在 死 锁 的 情况 下 回 
滚 事务 。 


8.2.6 习题 
习题 8. 2.1 在 下 面 的 每 个 动作 序列 中 ， 假 设 共 享 锁 恰 好 在 每 个 读 动作 前 申请 ， 而 排他 锁 怡 好 在 每 个 写 动 作 
前 申请 。 此 外 ， 解 锁 恰 好 发 生 在 事务 执行 的 最 后 一 个 动作 后 。 说 明 哪 些 动 作 被 拒绝 以 及 是 否 有 死 锁 发 生 ， 
并 说 明 在 动作 执行 过 程 中 等 待 图 怎样 演变 。 如 果 存 在 死 锁 ， 选 择 一 个 事务 并 将 其 中 止 ， 说 明 动作 序列 将 怎 
样 继续 下 去 。 
a) 71(A); ra(B); ra(C)i wi(B); wa(C); we(D); 
b) rı(A); ra(B); r2(C); wi(B); wa(O); we(A); 
c) r1(A); r3(B); wi(C); w3(D); r2(C); wi(B); wa(D); walA); 
d) r1(A); r3(B); wi(C); r2(D); ra(E); wa(B); wa(C); wa(A); wi(D); 


习题 8. 2. 2 ”对 习题 8. 2. 1 中 的 每 个 动作 序列 ， 说 明 在 伤害 - 等 待 死 锁 避 免 系统 下 将 会 发 生 什 么 。 假 设 死 
锁 时 间 稚 的 顺序 与 事务 下 标 相 同 ， 即 T, 、7,、7T;、7,。 还 假设 事务 的 重启 按照 这 些 事 务 回 深 的 顺序 来 
进行 。 

习题 8. 2. 3 ”对 习题 8. 2. 1 中 的 每 个 动作 序列 ， 说 明 在 等 待 -死亡 死 锁 避免 系统 下 将 会 发 生 什么 。 所 做 假设 
fA) JH 8. 2. 2。 

! 习题 8. 2. 4 ”避免 死 锁 的 一 种 方法 是 要 求 每 个 事务 在 开始 时 声明 自己 需要 的 所 有 锁 ， 然 后 或 者 授予 该 事务 需 
要 的 所 有 锁 ， 或 者 都 不 授予 而 让 该 事务 等 待 。 这 种 方式 能 避免 由 于 封锁 造成 的 死 锁 吗 ? 如 果 能 ， 解 释 原 
A; 如 果 不 能 ， 举 出 一 个 可 能 发 生死 锁 的 例子 。 

1 习题 8.2.5 考虑 7.6 节 的 意向 锁 系 统 。 描 述 如 何 为 这 种 封锁 方式 的 系统 构造 等 待 图 。 特 别 地 ， 请 考虑 数据 
库 元 素 4 被 不 同事 务 以 IS 和 5 方式 或 IS 和 1X 方式 封锁 这 种 可 能 性 。 如 果 一 个 对 4 封锁 的 请 求 需要 等 待 ， 
HARM MA AI? 

1 习题 8.2.6 在 8.2.5 节 中 ,我 们 指出 伤害 - 等 待 和 等 待 - FECT SR He ARE RE ILE, BE 
事务 可 能 重复 回 滚 而 永远 不 能 完成 。 举 例 说 明 ， 如 果 使 用 的 策略 是 回 滚 任 一 可 能 导致 环 的 事务 ， 这 将 怎 
样 导致 馈 死 。 要 求 事务 以 固定 的 顺序 申请 元 素 上 的 锁 一 定 能 防止 饿 死 吗 ? 超时 这 一 死 锁 处 理 机 制 又 怎 
样 呢 ? 

1 习题 8. 2.7 对 任意 整数 n>1， 是 否 存在 这 样 的 等 待 图 ， 其 中 有 一 个 长 度 为 n 的 环 却 没有 更 小 的 环 ? 当 m = 
1 时 即 一 个 结 点 上 的 环 时 又 怎样 ? 


8.3 长 事务 


有 这 样 一 类 应 用 ， 它 们 的 数据 可 以 用 数据 库 管 理 系统 来 管理 ， 但 是 作为 数据 库 并 发 控制 机 
制 基 础 的 多 个 短 事务 的 模型 对 它们 不 适合 。 本 节 中 我 们 将 讨论 一 些 这 类 应 用 的 例子 和 所 引 超 的 
问题 。 然 后 ， 我 们 将 讨论 一 个 基于 “补偿 事务 "的 解决 方法 ， 用 来 取消 已 经 提交 但 不 应 该 提交 的 
事务 的 影响 。 
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8.3.1 长 事务 的 问题 

大 致 说 来 ， 长 事务 是 需要 太 长 时 间 因 而 不 允许 它们 保持 其 他 事务 所 需要 的 锁 的 事务 。 根 据 
环境 ,“ 太 长 ”可 以 是 若干 秒 、 分 或 者 小 时 。 可 能 出 现 长 事务 的 3 大 类 应 用 为 : 

1 传统 的 DBMS 应 用 。 尽 管 通常 的 数据 库 应 用 主要 运行 短 事务 ， 但 许多 应 用 偶尔 需要 长 事 
务 。 例 如 ， 一 个 事务 可 能 检查 银行 的 所 有 账户 以 确定 总 的 余额 是 正确 的 。 另 一 个 事务 可 能 要 求偶 
尔 地 重 构 索引 以 保持 效率 最 高 。 

2. 设计 系统 。 不 管 设计 的 东西 是 机 械 的 (如 汽车 ) 、 电 的 (如 微 处 理 器 ) 还 是 软件 系统 ， 设 计 
系统 共同 的 一 个 要 素 是 ,设计 被 划分 为 一 系列 组 件 ( 例 如， 软件 项 目 中 的 文件 ) ， 且 不 同 的 设计 
者 同时 工作 在 不 同 的 组 件 上 > 我 们 不 希望 两 个 设计 者 各 自 获得 文件 的 一 个 副本 ， 通过 编辑 各 自 
的 副本 来 修改 设计 ， 然 后 将 新 的 文件 版 本 写 回 ， 因 为 这 样 将 导致 一 组 修改 被 另 一 组 修改 覆盖 。 因 
此 ， 检 入 检 出 系统 使 用 户 能 “ 检 出 "文件 并 在 修改 文件 后 “ 检 人 ”该 文件 ， 而 这 可 能 是 在 若干 小 时 
或 若干 天 后 。 即 使 第 一 个 设计 者 正在 修改 文件 ， 其 他 设计 者 仍 可 能 希望 阅读 该 文件 ， 以 获得 关于 
其 内 容 的 信息 。 如 果 检 出 操作 相当 于 排他 锁 ， 那 么 一 些 合理 的 、 切 合 实际 的 动作 就 可 能 被 延迟 ， 
可 能 长 达 数 天 。 

3. 工作 流 系 统 。 这 样 的 系统 涉及 过 程 集合 ， 有 的 过 程 由 软件 单独 执行 ， 有 的 过 程 需 要 人 的 
交互 ， 而 有 的 过 程 可 能 只 涉及 人 的 活动 。 我 们 马上 要 给 出 办 公 室 中 报销 时 所 需 文 书 工作 的 例子 。 
这 样 的 应 用 可 能 需要 执行 很 多 天 ， 并 且 在 此 期 间 某 些 数据 库 元 素 可 能 会 改变 。 如 果 系 统 为 事务 
中 涉及 的 数据 授 排他 锁 ， 那 么 其 他 事务 在 很 多 天 内 都 被 锁 在 外 面 。 

例 8. 13 考虑 职员 报销 差旅费 的 问题 。 该 职员 希望 从 账户 A123 中 获得 相应 的 补偿 ， 付 账 的 
过 程 如 图 8-11 所 示 。 这 一 过 程 从 动作 A, 开始 ， 即 出 差 者 的 秘书 在 线 填 写 一 张 表格 ， 描 述 旅 途 、 
付 账 的 账户 以 及 金额 。 我 们 假设 在 这 个 例子 中 账户 为 A123 而 金额 为 1000 元 。 

该 职员 的 收据 物理 地 送 到 部 门 的 相应 授权 机 构 ， 而 表格 则 在 线 传送 到 一 个 自动 的 动作 4,。 
这 一 过 程 检 查 付 款 账 户 A123 中 是 否 有 足够 的 钱 并 为 这 笔 费用 预 留 出 钱 来 ; 也 就 是 说 ， 这 一 过 程 
尝试 从 账户 中 减 去 1000 元 ， 但 并 不 发 出 具有 此 金额 的 支票 。 如 果 该 账户 中 没有 足够 的 钱 ， 则 此 
事务 中 止 ， 或 许 它 会 在 账户 中 金额 足够 或 改变 付款 账户 后 重启 。 





46 
图 8-11 出差 者 请 求 报销 差旅费 的 工作 流 图 
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动作 A, 由 部 门 主管 执行 ， 部 门 主 管 检 查收 据 和 在 线 表格 。 这 一 动作 可 能 发 生 在 下 一 天 。 如 
果 一 切 正常 ， 部 门 主管 就 批准 该 表格 ， 并 将 表格 和 物理 的 收据 一 起 送 给 公司 主管 ; 否则 事务 中 
止 。 或许 出 差 者 需要 对 申请 做 某 些 修改 并 重新 提交 表格 。 

BYE A, 可 能 发 生 在 若干 天 以 后 。 在 这 一 动作 中 ， 公 司 主管 或 者 批准 该 申请 ,或 者 拒绝 ,或 
者 将 表格 交 给 一 个 助手 去 处 理 ， 而 此 助手 将 在 动作 A, 中 做 出 决定 。 如 果 表 格 被 拒绝 ， 事 务 又 需 
要 中 止 ， 表格 也 需要 重新 提交 。 如 果 表 格 被 批准 ， 那 么 动作 A 中 将 书写 支票 并 完成 从 账户 A123 
中 减 去 1000 元 的 操作 。 

但 是 ， 假 设 我 们 只 能 用 传统 的 封锁 方法 来 实现 这 一 工作 流 。 特 别 地 ， 由 于 账户 A123 的 余额 
可 能 由 整个 事务 修改 ,该 账户 必须 在 动作 A, 时 以 排他 方式 封锁 并 且 要 等 到 事务 中 止 或 动作 A, 完 
成 后 才能 释放 。 这 个 锁 可 能 需要 保持 若干 天 ， 而 在 这 上 段 时 间 内 只 有 人 负责 批准 报销 的 人 能 够 查看 
相应 的 情况 。 如 果 这 样 ， 那 么 其 他 费用 就 不 能 使 用 账户 A123 ， 即 使 是 尝试 性 的 也 不 允许 。 另 一 
方面 ， 如 果 对 账户 A123 的 访问 根本 不 加 以 控制 ， 那 么 可 能 有 多 个 事务 同时 从 该 账户 中 预 留 和 减 
去 一 些 金额 ， 因 而 导致 透支 。 因 此 ， 我 们 需要 在 严格 的 长 期 封锁 和 无 控制 这 两 个 极端 之 间 进 行 
折 中 。 口 


8.3.2 saga( 系列 记载 ) 

saga 是 构成 长 “事务 ”的 一 系列 动作 ， 例 如 例 8. 13 中 的 那些 动作 。 也 就 是 说 ，saga 包括 : 

1. 一 系列 动作 。 

2. 一 个 图 ， 其 结 点 是 动作 结 点 或 终止 结 点 : Abort 及 Complete 结 点 。 不 存在 从 终止 结 点 发 出 
的 弧 。 

3. 关于 动作 从 哪个 结 点 开始 的 指示 ， 这 一 结 点 称 为 开始 结 点 。 

图 中 从 开始 结 点 到 终止 结 点 之 间 的 路 径 表 示 可 能 的 动作 序列 。 通 向 Abort 结 点 的 路 径 表示 导 
致 整个 事务 回 滚 的 动作 序列 ， 这 些 动作 序列 不 应 改变 数据 库 。 通 向 Complete 结 点 的 路 径 表 示 成 
功 的 动作 序列 ， 这 些 动作 对 数据 库 所 做 的 改变 都 将 保留 在 数据 库 中 。 

例 8.14 图 8-11 的 图 中 通 向 Abort 结 点 的 路 径 是 4,4, 、4,4;4; 、4; A, A, A, 和 4, A, Ag Ay Asc 
通 向 Complete 结 点 的 路 径 是 A, A, A, A, Ag 和 A, A, A, A, AS 4。。 注 意 ， 在 这 个 例子 里 ， 图 中 没有 
环 ， 因 此 通 向 终止 结 点 的 路 径 数 是 有 限 的 。 但 是 ， 通 常情 况 下 图 中 可 能 有 环 并 且 路 径 数 可 能 是 无 
限 的 。 口 

saga 的 并 发 控制 通过 两 方面 的 能 力 来 管理 : 

1. 可 以 认为 每 个 动作 自身 是 一 个 ( 短 ) 事 务 ， 在 执行 时 使 用 传统 的 并 发 控制 机 制 ， 如 封锁 。 
例如 ，4, 可 以 实现 为 在 账户 A123 上 (短暂 地 ) 获得 锁 ， 减 去 差旅费 单据 上 的 金额 ， 然 后 释放 锁 。 
这 样 的 封锁 可 以 防止 两 个 事务 同时 为 账户 余额 写 人 新 值 并 因而 丢失 第 一 个 写 操作 的 结果 ， 使 钱 
“魔术 般 地 出 现 ”。 

2. 整个 事务 即 任何 通 向 终止 结 点 的 路 径 通过 “补偿 事务 ”机制 来 管理 , “补偿 事务 ”是 saga 在 
各 个 结 点 上 的 事务 的 逆 。 它 们 的 工作 是 回 滚 已 提交 的 动作 ， 回 滚 方式 不 依赖 于 在 该 动作 执行 时 
刻 和 补偿 事务 执行 时 刻 之 间 数 据 库 上 发 生 了 什么 。 


8.3.3 ”补偿 事务 
在 saga 中 ， 每 个 动作 4 都 有 一 个 补偿 事务 ， 我们 记 为 4-!。 直 观 地 说 ， 如 果 我 们 执行 4， 后 
来 又 执行 4， 那么 所 产生 的 数据 库 状 态 同 4 和 4 都 未 执行 前 一 样 。 更 形式 化 地 : 
。 如 果 D 是 任 一 数据 库 状 态 ，B,B,. . . B, 是 动作 和 补偿 事务 的 任 一 序列 (不 管 是 来 自 所 讨论 
的 saga 还 是 来 自在 数据 库 上 合法 执行 的 任何 其 他 的 saga 或 事务 ) ， 那 么 在 数据 库 状 态 D 
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上 开始 运行 序列 B,B,...B, F AB,B,... B, 4 所 产生 的 数据 库 状 态 一 样 。 

如 果 saga 的 执行 通 向 Abort 结 点 ， 那 么 我 们 通过 为 每 个 已 执行 的 动作 执行 补偿 事务 来 回 滚 该 
saga， 补 偿 事 务 执行 的 顺序 与 对 应 动作 执行 的 顺序 相反 。 根 据 上 面 描述 的 补偿 事务 的 性 质 ， 该 
saga 的 影响 被 消除 ， 而 数据 库 状 态 就 和 saga 没有 发 生 一 样 。8. 3. 4 节 中 将 解释 为 什么 能 保证 消除 
影响 。 





数据 库 状态 什么 时 候 “ 一 样 ” 

在 讨论 补偿 事务 时 ， 我 们 必须 小 心 对 待 使 数据 库 回复 到 和 以 前 “一 样 的 状态 的 含义 。 当 
我 们 在 例 8.8 中 讨论 B 一 树 的 逻辑 日 志 时 ,我们 已 经 领略 过 这 个 问题 。 在 那里 我 们 看 到 ， 如 
果 我 们 “ 度 除 ”一 个 操作 ，B - 树 的 状态 可 能 和 执行 该 操纵 以 前 不 完全 相同 ， 但 就 B - 树 上 的 
访问 操作 而 言 它们 是 等 价 的 。 更 一 般 地 ， 执 行 一 个 动作 及 其 补偿 事务 或 许 不 能 将 数据 库 恢复 
到 与 以 前 完全 相同 的 状态 ， 但 它们 的 差异 对 数据 库 所 支持 的 应 用 来 说 应 该 是 不 能 察觉 的 。 


例 8.15 我 们 来 考虑 图 8-11 中 的 动作 ， 看 一 看 4, BA, 的 补偿 事务 各 是 什么 。 首 先 ，4, 创 
建 一 个 在 线 文档 。 如 果 该 文档 存储 在 数据 库 中 ， 那 么 4 “必须 将 其 从 数据 库 中 删除 。 注 意 ， 这 
一 补偿 遵循 补偿 事务 的 基本 性 质 : 如 果 我 们 创建 文档 ， 执 行 任意 动作 序列 a( 如 果 我 们 愿意 ， 其 
中 也 可 以 包括 删除 该 文档 ) ， 然 后 Aa A “的 效果 和 a 的 效果 一 样 。 

A, 的 实现 必须 非常 小 心 。 我 们 通过 从 账户 中 减 去 相应 金额 来 " 预 留 ” 钱 。 这 些 钱 一 直 保持 被 
消除 的 状态 ， 除 非 补偿 事务 4, ”对 其 进行 恢复 。 如 果 通 常 管 理 账户 的 规则 得 到 遵循 ， 那 么 我 们 
就 说 该 4 ”是 正确 的 补偿 事务 。 为 了 理解 这 一 点 ， 有 必要 考虑 一 个 类 似 的 事务 ， 对 这 个 事务 来 
说 明显 的 补偿 不 能 起 到 应 有 的 作用 ; 我 们 稍 后 在 例 8. 16 中 考虑 这 样 的 一 个 例子 。 

动作 4, A, AA, 都 包括 在 表格 上 添加 批准 意见 ， 因 此 它们 的 补偿 事务 可 以 将 批准 意见 
HH BR © 

最 后 ， 动 作 4 写 支票 ， 这 个 动作 没有 明显 的 补偿 事务 。 实 际 上 也 不 需要 ， 因 为 一 且 A, 被 执 
行 ， 这 个 saga 就 不 能 回 深 了 。 但 是 ， 从 技术 上 来 说 4; 根本 不 影响 数据 库 ， 因 为 支票 金额 由 4, 减 
去 。 如 果 我 们 需要 在 更 宽 的 范围 内 考虑 “数据 库 ”， 这 时 像 羌 现 支票 这 样 的 结果 将 影响 数据 库 ， 
那么 我 们 必须 将 A ”设计 为 首先 取消 支票 ， 然 后 写 封 信 给 领 款 人 要 求 归还 钱 ; 如 果 所 有 补救 措 
施 都 失败 ， 则 恢复 账户 中 的 金额 并 申报 由 于 呆账 而 造成 的 损失 。 口 

下 面 我 们 继续 看 例 8. 15 中 隐 含 的 例子 ， 其 中 对 账户 的 改变 不 能 通过 一 个 逆向 的 改变 来 补偿 。 
问题 在 于 账户 通常 不 允许 为 负 。 

例 8. 16 假设 事务 B 为 一 个 账户 中 增加 1000 元 , 该 账户 原来 有 2000 元 ,而 B87"!' 是 消除 同样 
数额 的 钱 的 补偿 事务 。 此 外 ， 假 设 在 试图 从 账户 中 消除 钱 而 这 将 导致 余额 为 负 时 事务 失败 是 合 
理 的 。 设 C 是 从 同一 账户 中 消除 2500 THRA, WA BCR 关 C。 原 因 在 于 只 执行 C 时 会 失败 ， 
账户 中 保持 为 2000 元 ， 而 如 果 先 执行 B 再 执行 C， 账 户 余额 为 500 元 ， 这 时 再 执行 B 会 失败 。 

我 们 的 结论 是 ， 只 使 用 补偿 事务 不 能 同时 支持 在 账户 间 任 意 转账 的 saga 和 不 允许 账户 余额 
为 负 的 规则 。 系 统 必须 进行 某 些 修改 ， 例 如 允许 账户 中 出 现 负 的 余额 。 口 


8.3.4 补偿 事务 发 挥 作 用 的 原因 
如 果 两 个 动作 序列 将 任意 数据 库 状 态 D 转换 为 同一 状态 ， 那 么 我 们 说 这 两 个 序列 是 等 价 的 
(三 )。 补 偿 事 务 的 基本 假设 可 以 表述 为 : 














© 在 图 8-11 的 saga 中 ， 补 偿 这 些 动作 的 唯一 时 机 是 当 我 们 将 删除 表格 时 ， 但 补偿 事务 的 定义 要 求 它们 各 自 独 立地 
工作 ， 不 管 其 他 补偿 事务 是 否 可 能 使 其 所 做 的 改变 变 得 无 关 紧 要 。 
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。 WR 4 是 任 一 动作 ，wa 是 合法 动作 和 补偿 事务 的 任 一 序列 ， 那 么 4a4 =a, 

现在 ， 我 们 需要 证 明 如 果 执 行 44:. .. 4, 这 一 saga 后 ， 再 以 相反 的 次 序 执行 它们 的 补偿 事务 
A, A, A …， 其 间 无 论 有 什么 样 的 动作 介入 ， 执 行 效果 同 动作 与 补偿 事务 都 没有 执行 过 一 
样 。 证 明 的 方法 是 对 n 进行 归纳 。 

基础 ”如果 n=1， 那 么 4, 和 其 补偿 事务 A “之 间 的 动作 序列 形 如 AoA, “'。 根 据 补偿 事务 
的 基本 假设 ，4,a4, =a; 即 此 saga 对 数据 库 状 态 没 有 影响 。 

归纳 ”假设 这 一 陈述 对 长 度 不 超过 -1 个 动作 的 路 径 成 立 ， 考 虑 一 条 个 动作 的 路 径 ， 其 
后 跟随 着 反 序 的 补偿 事务 ， 中 间 可 以 有 任何 事务 介入 。 此 序列 的 形式 为 


Ayn A202 -Ani Anp Az Yn 1 NAZ YAT! (8.1) 


其 中 所 有 希腊 字母 都 表示 零 个 或 多 个 动作 的 序列 。 根 据 补 偿 事务 的 定义 ，4.64, :=B。 因 此 
(8. 1) 等 价 于 


Arar A202 «++ An—10n-1B¥n—1 An 1 Yn-2 2AD NAL? (8.2) 
AAZE (8.2) stp RA n-1 PSHE, BBW, (8.2) REF 


01012 -An 8 Yn-1 YY 


也 就 是 说 ,该 saga 及 其 补偿 事务 使 数据 库 状 态 跟 saga 从 未 发 生 一 样 。 


8.3.5 JM 
! 习题 8. 3. 1 “MR SEAT RU hE EE AS, FER AR AR 
型 中 ， 假 设 动作 包括 将 一 个 或 多 个 文件 从 源 ( 如 CD-ROM) 装载 到 机 器 的 硬盘 上 。 为 了 装载 文件 上 我 们 从 
CD-ROM 上 复制 /， 如 果 已 经 存在 相同 路 径 名 的 文件 f'， 则 备份 1'， 然 后 替代 它 。 为 了 区 别 路 径 名 相同 的 
文件 , 我们 可 以 假设 每 个 文件 有 一 个 时 间 蕉 。 
a) 装载 文件 /这 一 动作 的 补偿 事务 是 什么 ? 考虑 两 种 情况 ， 即 不 存在 相同 路 径 名 的 文件 和 存在 相同 路 径 名 
的 文件 ' 这 两 种 情况 。 
b) 解释 为 什么 你 在 (a) 中 的 答案 能 保证 补偿 。 提 示 : 仔细 考虑 用 了 取代 .太后 又 用 具有 相同 路 径 名 的 另 一 文 
件 取代 了 的 情况 。 
! 习题 8. 3.2 用 saga 描述 预订 航班 座位 的 过 程 。 考 虑 顾客 可 能 查询 座位 但 并 不 预订 ; 顾客 可 能 预订 座位 ， 
后 来 却 又 取消 ， 或 者 在 规定 的 期 限 内 没有 付款 ; 顾客 可 能 乘坐 预订 的 航班 也 可 能 不 乘坐 ; 对 于 每 个 动作 ， 
描述 相应 的 补偿 事务 。 


8.4 人 小结 


e 脏 数据 : 由 未 提交 事务 写 人 主 存 缓冲 区 或 硬盘 上 的 数据 称 为 “ 脏 ” 数 据 。 

e AKAR: 人 允许 事务 读 脏 数据 的 日 志和 并 发 控制 组 合 可 能 需要 回 滚 那 些 从 稍 后 中 止 的 事 
务 中 读 取 了 数据 的 事务 。 

。 严格 封锁 : 严格 封锁 策略 要 求 事务 一 直 持 有 锁 ( 除 共享 锁 外 ) 直到 事务 提交 且 日 志 中 的 提 
交 记 录 已 刷新 到 磁盘 。 严 格 封锁 保证 事务 不 会 读 到 脏 数据 ， 即 使 月 演 和 恢复 后 回头 再 看 
时 也 如 此 。 

© 成 组 提交 : 如 果 我 们 保证 日 志 记录 到 达 磁 盘 的 顺序 和 写 人 顺序 一 样 ， 那 么 我 们 可 以 放松 
严格 封锁 中 要 求 提交 记录 到 达 磁 盘 这 一 条 件 。 这 时 仍 能 保证 不 存在 脏 读 ， 即 使 有 前 溃 和 
恢复 发 生 。 

© 在 中 止 后 恢复 数据 库 状 态 : 如 果 事 务 中 止 但 已 经 往 缓冲 区 中 写 人 了 值 ， 那 么 我 们 可 以 用 
日 志 或 磁盘 上 的 数据 库 拷 贝 恢复 原来 的 值 。 如 果 新 值 已 到 达 磁 盘 ， 那 么 我 们 仍 可 以 用 日 
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志 来 恢复 旧 值 。 

BRAS: 对 于 大 的 数据 库 元 素 如 磁盘 块 来 说 ， 如 果 我 们 在 日 志 中 增 量 地 记录 新 值 和 旧 
值 ， 即 只 表示 变化 ， 那 么 我 们 可 以 节省 许多 空间 。 在 某 些 情 况 下 ， 通 过 块 中 所 含 内 容 的 
抽象 逻辑 地 记录 改变 ， 这 使 我 们 在 事务 中 止 后 可 以 逻辑 地 恢复 状态 ， 即 使 数据 库 状 态 不 


能 精确 恢复 。 
© RA: 当 事 务 集 里 每 一 个 事务 都 在 等 待 该 事务 集 里 另 一 事务 当前 占有 的 资源 (例如 ) 锁 时 ， 
就 会 发 生死 锁 。 


SHR: 为 每 个 等 待 中 的 事务 创建 一 个 结 点 ， 结 点 上 有 一 条 指向 该 事务 所 等 待 的 事务 的 
弧 。 存 在 死 锁 等 同 于 等 待 图 中 存在 一 个 或 多 个 环 。 如 果 我 们 维护 等 待 图 并 中 止 将 导致 死 
锁 的 等 待 事务 中 的 任 一 个 ， 那 么 我 们 可 以 避免 死 锁 。 
通过 资源 排序 避免 死 锁 ; 要 求 事务 在 获得 资源 时 必须 按照 资源 的 某 种 字典 顺序 ， 这 可 以 
防止 死 锁 的 产生 。 

基于 时 间 丽 的 死 锁 避 免 ; 另 一 种 方法 是 维护 时 间 惟 ， 并 根据 请 求 资源 的 事务 比 占 有 资源 
的 事务 新 还 是 老 来 决定 事务 的 中 止 /等 待 。 在 等 待 - 死亡 方案 下 ， 较 老 的 请 求 事务 等 待 ， 
而 较 新 的 请 求 事务 以 原 时 间 蕉 回 滚 。 在 伤害 - 等 待 方案 下 ， 较 新 的 事务 等 待 ， 而 较 老 的 
事务 迫使 占有 资源 的 事务 回 滚 并 释放 资源 。 

saga; 当 事 务 中 包括 持续 时 间 很 长 、 可 能 需要 几 小 时 或 几 天 的 步 又 时 ,传统 封锁 机 制 可 能 
极 大 地 限制 并 发 。saga 由 一 个 动作 网 络 构成 ， 其 中 的 每 个 动作 可 能 通 向 一 个 或 多 个 其 他 
动作 ， 可 能 使 整个 saga 完成 ， 也 可 能 使 saga 需要 中 止 。 

补偿 事务 : 要 使 saga 有 意义 ， 每 个 动作 都 必须 有 一 个 补偿 动作 ， 该 补偿 动作 能 取消 原 动 
作对 数据 库 状 态 的 影响 ， 并 且 不 影响 已 完成 的 saga 或 运行 中 的 saga 所 做 的 任何 其 他 动 
作 。 如 果 saga 中 止 ， 那 么 对 应 的 补偿 动作 序列 将 被 执行 。 


8.5 参考 文献 


文献 [2] 、[1] 和 [7] 是 这 里 所 讨论 话题 的 一 些 有 用 的 、 全 面 的 资料 来 源 。 逻 辑 日 志 取 材 于 
文献 [6] 。 

文献 [5] 对 死 锁 预防 进行 了 综述 ; 等 待 图 就 来 自 该 文献 。 等 待 -死亡 和 伤害 - 等 待 方式 来 自 
文献 [8] 。 

长 事务 由 文献 [4] 引 人。 文献 [3] 中 描述 了 sagao 

1. N. S. Barghouti and G. E. Kaiser, “Concurrency control in advanced 


database applications,” Computing Surveys 23:3 (Sept., 1991), pp. 269- 
318. 


2. S. Ceri and G. Pelagatti, Distributed Databases: Principles and Systems, 
McGraw-Hill, New York, 1984. 


3. H. Garcia-Molina and K. Salem, “Sagas,” Proc. ACM SIGMOD Intl. 
Conf. on Management of Data (1987), pp. 249-259. 


4. J. N. Gray, “The transaction concept: virtues and limitations,” Intl. Conf. 
on Very Large Databases (1981), pp. 144-154. 


5. R. C. Holt, “Some deadlock properties of computer systems,” Computing 
Surveys 4:3 (1972), pp. 179-196. 


264 


$- 部 分 REAREN 





. C. Mohan, D. J. Haderle, B. G. Lindsay, H. Pirahesh, and P. Schwarz, 


“ARIES: a transaction recovery method supporting fine-granularity lock- 
ing and partial rollbacks using write-ahead logging,” ACM Trans. on 
Database Systems 17:1 (1992), pp. 94-162. 


_ M. T. Ozsu and P. Valduriez, Principles of Distributed Database Systems, 


Prentice-Hall, Englewood Cliffs NJ, 1999. 


_D. J. Rosenkrantz, R. E. Stearns, and P. M. Lewis Il, “System-level 


concurrency control for distributed database systems,” ACM Trans. on 
Database Systems 3:2 (1978), pp. 178-198. 


第 9 章 并行 与 分 布 式 数据 库 


一 台 机 器 上 可 以 有 许多 数据 库 ， 同 时 一 个 数据 库 也 可 以 分 布 在 多 个 机 器 上 ， 还 有 的 数据 库 
是 位 于 一 台 高 度 并 行 的 机 器 上 。 当 计算 是 并 行 的 或 分 布 式 的 时 候 ， 就 有 许多 数据 库 实 现 问题 需 
要 重新 考虑 。 

在 本 章 中 ,我 们 首先 考察 已 经 使 用 的 各 类 并 行 体系 结构 。 在 一 台 并 行 机 器 上 ， 很 重要 的 一 点 
是 最 昂贵 的 操作 要 利用 并 行 的 优势 ， 对 于 数据 库 来 说 ， 这 类 操作 就 是 全 关系 操作 ， 例 如 连接 操 
作 。 然 后 我 们 讨论 用 来 表示 大 规模 计算 的 map-reduce 范 型 。 这 种 算法 形式 特别 适合 在 大 规模 并 行 
机 器 上 执行 ， 并 且 可 以 简单 地 用 这 种 方式 表示 重要 的 数据 库 处 理 。 

接着 我 们 转向 分 布 式 体系 结构 ， 包 括 工作 站 的 网 格 和 网 络 ， 以 及 分 布 在 世界 范围 的 公司 
数据 库 。 现 在 ， 我 们 不 仅 要 关注 为 执行 查询 操作 运用 许多 可 用 的 处 理 器 ， 而 且 还 要 关注 很 多 
数据 库 操 作 在 分 布 式 环境 下 变 得 很 难 正确 执行 ， 其 中 比较 显著 的 就 是 事务 的 分 布 式 提交 和 分 
布 式 加 锁 。 

分 布 式 体 系 结构 的 一 种 极端 情况 是 独立 的 机 器 的 集合 ， 常 被 称 作 “ 对 等 ”网络 。 在 这 种 网 络 
中 ， 甚 至 数据 的 查找 都 变 成 问题 了 。 因 此 我 们 将 讨论 分 布 式 的 散 列 表 和 在 对 等 网 络 中 的 分 布 式 
查找 。 


9.1 关系 的 并 行 算法 


数据 库 操 作 经 常 大 量 消耗 时 间 并 且 涉 及 大 量 数据 ， 因 而 通常 采用 并 行 处 理 。 在 这 一 节 中 , 我 
们 将 回顾 并 行 机 的 基本 结构 。 然 后 ， 我 们 关注 “无 共享 结构， 尽管 它 不 比 其 他 的 并 行 应 用 更 优 
越 ， 但 它 表 现 出 对 数据 库 操作 是 最 有 效 的 。 对 于 大 多 数 关系 数据 库 操作 的 标准 算法 的 一 个 简单 
修改 将 能 够 极 好 地 利用 并 行 机 制 。 那 就 是 ， 在 一 个 有 zp 个 处 理 器 的 机 器 上 完成 一 个 操作 的 时 间 大 
约 是 在 一 个 单 处 理 器 机 器 上 完成 这 个 操作 的 时 间 的 1/p。 


9.1.1 并 行 模型 

所 有 并 行 机 的 核心 都 是 一 个 处 理 器 的 集合 。 处 理 器 的 数量 p 经 常 是 很 大 的 ， 成 百 上 千 。 我 们 
将 假设 每 个 处 理 器 有 它 自 己 的 局 部 高 速 缓存 ， 这 在 我 们 的 图 示 中 不 再 明确 显示 了 。 在 大 多 数 的 
组 织 结构 中 ， 每 个 处 理 器 还 有 局 部 内 存 ， 我 们 已 经 标明 了 。 对 数据 库 处 理 极其 重要 的 是 还 有 连同 
这 些 处 理 器 一 起 的 许多 磁盘 ， 可 能 每 个 处 理 器 有 一 个 或 多 个 ， 或 者 在 某 些 结构 中 ， 所 有 的 处 理 器 
可 以 直接 访问 一 个 大 的 磁盘 集合 。 

另外 ， 并 行 计算 机 都 有 某 些 在 处 理 器 之 间 传 送信 息 的 通信 设备 。 在 我 们 的 图 了 示 中 ， 所 显示 的 
通信 方式 好 像 对 于 所 有 的 机 器 部 件 都 有 一 个 共享 的 总 线 。 但 是 ， 实 际 上 在 最 大 的 机 器 中 ， 总 线 不 
能 连接 所 有 的 处 理 器 或 其 他 部 件 ， 因 此 在 许多 结构 中 ， 互 连 系统 是 一 个 强大 的 交换 机 ， 辅 之 以 连 
接 局 部 簇 中 处 理 器 子 集 的 总 线 。 例 如 ， 一 个 机 架 上 的 处 理 器 被 连接 起 来 。 

我 们 可 以 把 并 行 结构 分 为 3 个 大 类 。 连 接 最 紧密 的 结构 共享 它们 的 内 存 ， 连 接 较 不 紧密 的 结 
构 共 享 硬 盘 而 不 共享 内 存 。 常 用 于 数据 库 的 结构 甚至 不 共享 硬盘 ， 这 被 称 作 “ 无 共享 "结构 ， 尽 
管 通过 信息 传递 ， 处 理 器 事实 上 是 互 连 且 共 享 数据 的 。 
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共享 内 存 机 器 

在 图 9-1 所 示 的 结构 中 ， 每 一 个 处 理 器 可 以 访问 所 有 处 理 器 的 所 有 内 存 。 也 就 是 说 对 整个 机 
器 ， 有 一 个 单一 的 物理 地 址 空间 ， 而 不 是 每 个 处 理 器 
一 个 地 址 空间 。 图 9-1 实际 上 太极 端 ， 它 表明 每 个 处 
理 器 根本 没有 私有 的 内 存 。 每 个 处 理 器 应 当 有 某 些 局 
部 的 能 单独 使 用 的 内 存 。 但 是 ， 当 需要 时 ， 它 可 以 直 
接 访 问 其 他 处 理 器 的 内 存 。 这 一 类 的 大 型 机 是 NUMA 
(nonuniform memory access) 类 型 的 ， 这 意味 着 一 个 处 
理 器 访问 “属于 ”其 他 处 理 器 内 存 的 数据 所 花 的 时 间 在 
一 定 程 度 上 多 于 访问 它 “ 自己 ”的 内 存 或 它 的 局 部 簇 中 
处 理 器 内 存 的 时 间 。 但 是 ， 当 前 结构 中 最 大 的 差异 不 
是 内 存 访 问 时 间 ， 而 是 不 管 数 据 在 哪里 ， 内 存 访问 的 
时 间 都 远 远大 于 一 个 高 速 缓存 访问 的 时 间 ， 因 此 关键 
的 问题 是 ， 处 理 器 所 需 的 数据 是 否 在 它 自己 的 高 速 组 图 9-1 一 个 共享 内 存 的 机 器 
存 中 。 

共享 磁盘 机 器 

在 图 9-2 所 示 的 结构 中 ， 每 一 个 处 理 器 有 它 自己 的 内 存 ， 其 他 的 处 理 器 不 能 直接 访问 到 。 但 
是 ， 磁 盘 可 以 由 任何 一 个 处 理 器 通过 通信 网 络 访问 
到 。 磁 盘 控 制 器 管理 来 自 不 同 处 理 器 的 潜在 的 竞争 需 
求 。 磁 盘 和 处 理 器 的 数目 不 必 像 图 9-2 所 示 的 那样 是 
相同 的 。 

现在 这 种 结构 根据 硬盘 与 处 理 器 之 间 转 移 的 数据 
单位 不 同 可 以 分 为 两 类 。 一 类 是 称 作 网 络 附 加 存储 
(NAS) 的 特大 容量 磁盘 存储 ， 它 转移 的 是 文件 。 另 一 
类 是 存储 区 域 网 络 (SAN) ， 它 在 硬盘 与 存储 器 之 间 转 
移 的 是 硬盘 块 。 

无 共享 机 器 

如 图 9-3 所 示 ， 所 有 的 处 理 器 都 有 它们 自己 的 内 
存 和 一 个 或 多 个 磁盘 。 所 有 的 通信 都 经 过 从 处 理 嚣 到 图 9-2 一 个 共享 磁盘 的 机 器 
处 理 器 的 通信 网络 。 举 例 来 说 ， 如 果 一 个 处 理 器 PP 想 
从 另 一 个 处 理 器 0 的 磁盘 上 读 元 组 ， 那 么 处 理 器 P 向 Q 发 送 请 求 数据 的 消息 。 接 着 ，Q@ 从 它 的 
磁盘 上 获得 元 组 ， 并 用 另 一 条 消息 把 它们 通过 网 络 发 送 给 Po 




















图 9-3 一 个 无 共享 的 机 器 
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如 前 所 述 ， 无 共享 的 体系 结构 是 数据 库 系统 最 常用 的 结构 。 无 共享 机 的 建造 相对 较 便宜 ， 可 
以 购买 几 台 成 架 的 商品 机 ， 一 个 架 上 的 机 器 用 网 络 连接 起 来 ， 架 与 架 之 间 用 另外 一 个 网 络 连 接 
起 来 。 

但 是 我 们 为 这 些 机 器 设计 算法 的 时 候 ， 必 须 注意 从 一 个 处 理 器 向 另 一 个 处 理 器 发 送 数据 代 
价 是 很 高 的 。 通 常 ， 数 据 必须 在 处 理 器 之 间 的 消息 中 发 送 ， 需 要 可 观 的 系统 开销 。 两 个 处 理 器 必 
须 都 执行 一 个 支持 消息 传送 的 程序 ， 这 里 会 有 一 个 与 通信 网 络 相关 的 竞争 或 延迟 。 消 息 的 代价 
通常 可 以 被 分 为 一 个 大 的 固定 的 系统 开销 加 上 每 个 字 节 传送 的 少量 的 时 间 。 这 样 ， 设 计 一 个 并 
行 算法 使 得 在 处 理 器 之 间 的 通信 和 包括 大 数据 量 的 发 送 将 很 有 益处 。 举 例 来 说 ,我 们 可 将 处 理 器 P 
中 将 要 发 送 到 处 理 器 @ 的 数据 的 若干 个 块 进行 缓冲 。 如 果 0 不 立即 需要 数据 ， 那 么 等 到 我 们 在 
P 中 有 一 个 长 消息 时 再 将 它 发 到 @ 将 是 非常 有 效 的 。 幸 运 的 是 ， 最 常用 的 数据 库 操 作 并 行 算法 可 
以 有 效 地 使 用 长 消息 。 


9. 1.2 一 次 一 个 元 组 的 操作 的 并 行 

让 我 们 通过 考虑 选择 操作 符 来 开始 我 们 的 无 共享 机 的 并 行 算法 的 讨论 。 首 先 ， 我 们 必须 考 
虑 怎样 最 好 地 存储 数据 。 就 像 首 先 在 2. 3. 3 节 中 建议 的 ， 将 我 们 的 数据 分 布 到 尽 可 能 多 的 磁盘 上 
将 是 很 有 用 的 。 为 了 方便 起 见 ， 我 们 将 假设 一 个 处 理 器 只 有 一 个 磁盘 。 那 么 如 果 有 p 个 处 理 器 ， 
就 将 任意 一 个 关系 R 的 元 组 平均 地 分 到 5p 个 处 理 器 的 磁盘 上 。 

为 了 计算 ee(R) ， 我 们 可 以 使 用 每 一 个 处 理 器 来 检查 分 布 在 它 自己 磁盘 上 的 元 组 。 每 一 个 
处 理 器 找到 满足 C 条 件 的 元 组 ， 将 它们 复制 到 输出 。 为 了 避免 处 理 器 之 间 的 通信 ， 我 们 将 ce(R) 
中 的 元 组 上 存储 到 那些 磁盘 上 有 上 的 处 理 器 中 。 这 样 ， 关 系 ee(R) 的 结果 就 像 尺 一 样 分 布 在 各 个 
处 理 器 上 。 

因为 re(R) 可 以 是 另 一 个 操作 的 输入 关系 ， 又 因为 我 们 想 使 空闲 时 间 最 小 并 且 在 任何 时 间 
都 让 所 有 的 处 理 器 保持 繁忙 ， 所 以 我 们 希望 将 os。(R) 平 均 地 分 到 各 个 处 理 器 中 。 如 果 我 们 是 在 
做 一 个 投影 ， 而 不 是 选择 ， 那 么 每 个 处 理 器 上 mr,(R) 中 元 组 的 数目 与 处 理 器 上 的 元 组 的 数目 
相同 。 这 样 ， 如 果 RR 是 平均 分 布 的 ， 那么 它 的 投影 也 是 平均 分 布 的 。 但 是 ,与 R 的 分 布 相 比 ， 
选择 将 大 大 改变 结果 中 元 组 的 分 布 。 

例 9.1 设 选择 是 rc,-o(R) ， 即 找 出 刃 中 所 有 属性 o 的 值 是 10 的 元 组 。 还 假设 我 们 已 经 按 
照 属性 a 的 值 将 尺 进 行 了 划分 。 那 么 所 有 具有 a = 10 的 元 组 在 一 个 处 理 器 上 ， 那 么 整个 的 关系 
ce-n(R) 就 在 一 个 处 理 器 上 。 口 

为 了 避免 例 9. 1 表明 的 问题 ， 我 们 需要 仔细 考虑 在 处 理 器 之 间 分 布 存储 关系 的 策略 。 可 能 我 
们 所 能 做 的 就 是 使 用 涉及 一 个 元 组 的 所 有 成 分 的 散 列 函数 上， 使 得 元 组 上 中 一 个 成 分 的 改变 就 可 
以 将 h(i) 改变 到 任何 可 能 的 桶 号 。 举 例 来 说 ， 如 果 我 们 想 要 B 个 桶 ， 可 以 将 每 一 个 成 分 转化 为 0 
到 8B8-1 之 间 的 一 个 整数 ， 将 每 一 个 成 分 的 这 个 整数 加 起 来 ， 结 果 用 B 除 ， 余 数 作为 桶 号 。 如 果 
B 也 是 处 理 器 的 数目 ,那么 我 们 可 以 将 每 个 处 理 器 与 一 个 桶 关联 ， 并 把 桶 的 内 容 传 给 那个 处 
理 器 。 


9. 1.3 整个 关系 的 操作 的 并 行 算法 

首先 ， 我 们 考虑 操作 8(R) 。 如 果 按 照 9. 1. 2 节 建 议 的 那样 使 用 一 个 散 列 函 数 分 布 R 的 元 组 ， 
那么 将 R 的 重复 元 组 放 在 同一 个 处 理 器 上 。 我 们 通过 在 每 一 个 处 理 器 的 的 部 分 上 使 用 一 个 标 
准 的 单 处 理 器 算法 (就 像 4.4.2 节 和 4.5.2 节 的 例子 ) 来 并 行 地 产生 8(R)。 同 样 ， 如 果 我 们 使 用 
同一 个 散 列 函 数 来 分 发 所 有 民 和 5 的 元 组 ， 那么 我 们 可 以 通过 在 每 一 个 处 理 咒 的 RR 和 5 的 部 分 上 
并 行 工作 来 取 尺 和 5 的 并 、 交 或 差 。 
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BÆ, BRA $ 不 是 使 用 同一 个 散 列 函数 来 分 布 的 ， 并 且 我 们 希望 执行 它们 的 并 。 在 这 
种 情况 下 ， 我 们 必须 生成 R 和 5 的 所 有 元 组 的 副本 ， 并 按照 单一 的 散 列 函数 h。 来 分 发 它们 。 

我 们 使 用 散 列 函数 h， 并 行 地 将 RR 和 5 的 元 组 散 列 到 每 一 个 处 理 器 上 。 散 列 过 程 就 像 4.5. 1 
节 那 样 进行 ， 但 当 一 个 处 理 器 7 上 相应 于 桶 i 的 缓冲 区 满 了 时 ， 并 不 是 将 它 移动 到 jj 上 的 磁盘 ， 
而 是 将 缓冲 区 的 内 容 输送 到 处 理 器 i。 如 果 我 们 在 内 存 中 有 空间 存放 每 个 桶 的 几 个 块 ， 那么 在 将 
它们 输送 到 处 理 器 i 之前， 我们 可 以 等 待 用 桶 i 的 元 组 填 满 几 个 缓冲 区 。 

这 样 ， 处 理 器 RK RAS 的 所 有 属于 桶 的 元 组 。 在 第 二 阶段 ， 每 个 处 理 器 对 属于 它 的 桶 
HAY RAI S 的 元 组 执行 并 操作 。 作 为 结果 ， 关 系 RUS 将 分 布 在 所 有 处 理 器 上 。 如 果 散 列 函 数 h 
真正 随机 产生 桶 中 元 组 的 位 置 ， 那 么 我 们 可 以 期 望 RUS 在 每 一 个 处 理 器 上 的 元 组 的 数目 近似 
相等 。 

交 和 差 的 操作 可 以 和 并 一 样 来 执行 ; 它 并 不 管 这 些 操作 是 集合 还 是 包 的 形式 。 进 一 步 地 : 

© 为 了 计算 R(X, Y) SCY, Z), BATH RAI S 的 元 组 散 列 到 与 处 理 器 数目 相同 的 桶 中 。 

但 是 ， 我 们 使 用 的 散 列 函 数 必定 仅 依赖 于 工 的 属性 ， 而 不 是 全 部 的 属性 ， 这 使 得 连接 元 
组 总 是 被 送 到 同一 个 桶 中 。 就 像 并 那样 ， 我 们 将 桶 i 的 元 组 送 到 处 理 器 i。 那 么 我 们 就 可 
以 在 每 一 个 处 理 器 上 使 用 任何 单 处 理 器 连接 算法 来 执行 连接 了 。 

。 为 了 计算 分 组 和 聚集 7( 尽 ) ， 我 们 使 用 一 个 仅 依赖 于 列表 工 中 的 分 组 属性 的 散 列 函数 

来 分 发 RR 的 元 组 。 如 果 每 个 处 理 器 具有 对 应 于 的 一 个 桶 的 所 有 元 组 ， 那 么 我 们 可 以 使 
用 任何 单 处 理 器 y 算法 来 在 这 些 元 组 上 局 部 地 执行 y, 操作 。 


9.1.4 并 行 算法 的 性 能 

现在 ， 让 我 们 考虑 在 p 个 处 理 器 的 机 器 上 一 个 并 行 算法 的 运行 时 间 与 使 用 单 处 理 器 在 同样 数 
据 、 同 样 操作 上 的 算法 的 执行 时 间 的 比较 。 总 的 工作 量 ， 即 磁盘 LO 和 处 理 器 周期 ,并行 机 不 可 
能 比 单 处 理 器 机 更 小 。 但 是 ， 因 为 有 7p 个 处 理 器 与 p 个 磁盘 一 起 和 运转， 我 们 可 以 期 望 多 处 理 器 耗 
费 的 时 间 比 单 处 理 器 小 得 多 。 

如 果 关 系 尺 是 均匀 分 布 的 (就 像 我 们 在 9.1.2 节 中 建议 的 那样 )， 那 么 完成 一 元 操作 ， 如 
cc(R) ， 花 费 的 时 间 为 单 处 理 器 执行 这 个 操作 的 时 间 的 1/p。 磁 盘 VO 的 数目 与 单 处 理 器 上 的 选 
择 操 作 必然 是 一 样 的。 唯一 的 差别 是 ， 平 均 每 个 处 理 嚣 上 有 的 p 个 半 满 的 块 ， 而 不 是 将 尺 的 所 
有 元 组 存储 在 一 个 处 理 器 的 磁盘 上 ， 从 而 只 有 单个 半 满 的 块 。 

现在 考虑 二 元 操作 ， 如 连接 。 我 们 在 连接 属性 上 使 用 一 个 散 列 函 数 ， 它 将 每 一 个 元 组 传送 到 
Pp 个 桶 中 的 一 个 ， 其 中 p 是 处 理 器 的 数目 。 为 了 分 配 一 个 处 理 器 上 的 元 组 ， 我 们 必须 将 每 个 元 组 
从 磁盘 上 读 和 内存， 计算 散 列 函数 ， 并 将 所 有 这 些 元 组 (除去 碰巧 属于 它 自 己 处 理 器 上 的 桶 的 那 
p 分 之 一 的 元 组 外 ) 传送 出 去 。 

如 果 我 们 正在 计算 R(X，Y) ASY, Z), MARE BCR) + B(5S) 个 磁盘 VO KER R 
和 S 的 所 有 元 组 并 且 确 定 它们 的 桶 。 接 着 我 们 必须 经 过 机 器 内 部 互 连 的 网 络 将 ((p - 1) Zp) 
(BCR) +B(S) ) 个 数据 块 传送 到 适当 的 处 理 器 上 ; 仅 有 (1/p) 个 已 在 正确 处 理 器 上 的 元 组 不 需要 
传输 。 依 赖 于 机 器 的 体系 结构 ， 传 送 的 代价 可 以 大 于 或 小 于 同样 的 磁盘 LO 数目 的 代价 。 但 是 ， 
我 们 将 假设 网 络 上 的 传送 比 磁盘 和 内 存 之 间 数 据 移动 的 代价 小 得 多 ， 因 为 网 络 上 的 传送 没有 包 
含 物理 动作 ， 但 是 磁盘 1/0 中 包括 。 


O “在 原理 上 ， 这 个 并 可 以 是 基于 集合 的 ， 也 可 以 是 基于 包 的 。 但 是 4. 2. 3 节 的 包 并 技术 是 并 行 工作 的 ， 它 复制 所 有 
的 操作 对 象 的 元 组 ， 因 此 我 们 可 能 不 希望 使 用 这 里 描述 的 算法 来 执行 包 并 。 

© MRAP RRS 的 元 组 的 散 列 函数 是 已 知 的 ， 那 么 我 们 可 以 使 用 那个 散 列 函数 来 分 发 另 一 个 关系 ， 而 不 用 
分 发 两 个 关系 。 
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原理 上 ， 我 们 可 以 假设 接收 处 理 器 必须 首先 在 它 自己 的 磁盘 上 存储 数据 ， 然 后 在 收 到 的 元 
组 上 执行 一 个 局 部 连接 。 举 例 来 说 ， 如 果 我 们 在 每 一 个 处 理 器 上 使 用 两 趟 的 排序 连接 ， 朴 素 的 并 
行 算法 将 在 每 一 个 处 理 器 上 使 用 3(B(R) + BCS) )/p 个 磁盘 IO， 因 为 每 一 个 桶 中 关系 的 大 小 近 
似 为 BCR)/p 和 B(S)/p， 并 且 这 种 连接 类 型 将 对 每 个 操作 对 象 关 系 占用 的 块 花费 3 个 磁盘 IO。 
对 于 这 个 代价 ， 我 们 将 在 每 个 处 理 器 上 增加 另外 的 2(B(R) + B(S))/p 个 磁盘 VO， 用 于 每 个 元 
组 的 第 一 次 读 和 在 元 组 的 散 列 和 分 布 的 过 程 中 接收 元 组 的 处 理 器 对 每 一 个 元 组 进行 存储 。 还 应 
当 加 上 传送 数据 的 代价 ， 但 我 们 已 经 确定 了 与 同样 数据 的 磁盘 YO 代价 相 比 ， 这 个 代价 是 可 以 忽 
略 的 。 

上 面 的 比较 说 明了 多 处 理 器 的 价值 。 尽 管 总 体 上 我 们 做 了 更 多 的 磁盘 IO( 每 个 数据 块 5 个 
磁盘 IO， 而 不 是 3 个 ), 但 所 消耗 的 时 间 ， 以 在 每 个 处 理 器 上 执行 磁盘 VO 的 数目 来 计 ， 从 
3(B(R) + BCS) ) 降 到 了 5(B(R) +B(S))/p， 对 于 大 的 p 来 说 ,这 是 一 个 显著 的 提高 。 


大 错误 
当 使 用 基于 散 列 的 算法 来 在 处 理 器 之 间 分 布 关系 并 执行 操作 时 ， 就 像 例 9.2 那样 ， 我 们 
必须 当心 不 要 过 度 使 用 一 个 散 列 函数 。 举 例 来 说 ,假设 为 了 计算 丸和 S 的 连接 ， 我们 使 用 区 
列 函数 有 在 处 理 右 之 间 将 关系 尺 和 5 的 元 组 进行 散 列 。 我 们 可 能 想 尝试 使 用 及 将 5 的 元 组 局 
部 地 散 列 到 桶 中 ， 就 像 我 们 在 每 个 处 理 器 上 执行 一 赵 的 散 列 连接 那样 。 但 如 果 我 们 这 样 做 
| 了 ， 所 有 的 那些 元 组 都 会 跑 到 一 个 桶 中 ， 例 9.2 中 建议 的 内 存 连接 将 极端 低 效 。 | 


此 外 ， 有 许多 提高 并 行 算法 的 速度 的 方法 ， 使 得 总 的 磁盘 LO 的 数量 不 多 于 单 处 理 器 算法 所 
需 的 磁盘 VO 数量 。 事 实 上 ， 因 为 我 们 在 每 个 处 理 器 上 对 一 个 小 关系 操作 ， 所 以 能 够 使 用 一 个 对 
每 个 数据 块 使 用 较 少 的 磁盘 O 的 局 部 连接 算法 。 举 例 来 说 ， 即 便 尺 和 5 很 大 ， 使 得 在 单 处 理 器 
上 和 需要 两 趟 算法 ， 我 们 仍 能 够 在 (1/p) 的 数据 上 使 用 一 趟 算法 。 

如 果 当 我 们 将 一 个 块 传送 到 它 的 桶 的 处 理 器 时 ， 处 理 器 能 够 立即 使 用 这 个 块 作为 它 的 连接 算法 
的 一 部 分 的 话 ， 我 们 就 可 以 避免 每 个 块 的 两 个 磁盘 IO。 大 多 数 已 知 的 连接 和 其 他 关系 操作 符 人 允许 
这 种 使 用 ， 在 这 种 情况 下， 并 行 算法 看 起 来 就 像 4 8.3 节 中 在 第 一 趟 时 使 用 散 列 技术 的 多 趟 算法 。 

例 9.2 考虑 第 4 章 中 连接 的 例子 R(X, Y) SY, Z), 其 中 RR 和 5 各 占用 1000 个 和 500 
个 块 。 现 在 ， 设 有 一 个 10 个 处 理 器 的 机 器 ， 每 个 处 理 器 有 101 PAK, MA, 假设 R 和 5 是 
在 这 10 个 处 理 器 上 均匀 分 布 的 。 

我 们 开始 时 使 用 仅 依 赖 于 连接 属性 Y 的 散 列 函 数 h， 将 R 和 S 的 每 一 个 元 组 散 列 到 10 个 
“ 桶 "中 的 一 个 。 这 10 个 “ 桶 ”代表 10 个 处 理 器 ， 元 组 被 传送 到 对 应 它们 “ 桶 ”的 处 理 器 上 。 读 R 
和 5 的 元 组 的 总 共 的 磁盘 IO 的 数目 是 1500, 或 者 说 每 个 处 理 器 150 个 。 每 个 处 理 器 有 大 约 15 
个 块 的 数据 散 列 到 它 自身 ， 用 于 其 他 处 理 器 数据 的 块 ， 因 此 ， 它 将 135 个 块 传送 到 其 他 的 9 个 处 
理 器 上 。 这 样 ， 总 的 通信 量 是 1350 个 块 。 

我 们 将 安排 处 理 器 在 传送 丸 的 元 组 之 前 传送 5 的 元 组 。 因 为 每 一 个 处 理 器 接收 大 约 50 个 5 
的 元 组 的 块 ， 这 样 它 能 够 使 用 它 的 101 个 缓冲 区 中 的 50 个 在 内 存 数据 结构 中 存储 这 些 元 组 。 然 
后 ， 当 处 理 器 开始 发 送 R 的 元 组 时 ,将 每 一 个 元 组 与 局 部 的 5 的 元 组 比较 ， 任 何 连 接 元 组 的 结果 
都 将 作为 输出 。 

在 这 种 方式 中 ， 连 接 唯一 的 代价 是 1500 个 磁盘 IO。 而 且 ， 在 每 个 处 理 器 上 操作 所 消耗 的 时 间 
大 致 上 是 150 个 磁盘 VO， 加 上 在 处 理 器 之 间 传 送 元 组 和 执行 内 存 计算 所 需 的 时 间 。 注 意 到 150 个 
磁盘 YO 少 于 在 单 处 理 器 上 执行 同样 算法 所 花 时 间 的 1/10。 我 们 赢得 这 些 并 不 仅仅 因为 我 们 有 10 
个 运行 的 处 理 器 ， 而 且 在 10 个 处 理 器 中 总 共 1010 个 缓冲 区 为 我 们 赢得 了 额外 的 效率 。 口 
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9.1.5 习题 
习题 9. 1. 1 ”假设 一 个 磁盘 LO 占用 100ms, 4 BCR) =200， 所 以 在 一 个 单 处 理 器 的 机 器 上 计算 0 (R) 的 磁 
AYO 将 占用 20s。 如 果 这 个 选择 在 一 个 有 p 个 处理 器 的 机 器 上 执行 ， 效 率 会 提高 多 少 ? 
a) p=1000; b) p=12; c) p=100, 
! 习题 9. 1.2 在 例 9.2 中 ， 我 们 描述 了 一 个 算法 ， 它 通过 首先 将 元 组 散 列 分 布 到 多 个 处 理 器 上 ， 再 在 处 理 器 
上 执行 一 趟 连接 算法 来 并 行 地 计算 R95S。 按 照 B(R) 和 8(S) ， 即 相关 的 关系 的 大 小 ，P( 处理 器 的 数目 ) 
和 A 必 ( 每 一 个 处 理 器 上 内 存 的 块 数 )， 请 给 出 算法 可 以 成 功 执行 的 条 件 。 


9.2 map-reduce 并 行 架 构 


map-reduce 是 一 个 高 水 平 的 编程 系统 ， 它 可 以 使 许多 重要 的 数据 库 处 理 写 起 来 很 简单 。 用 户 
需要 为 两 个 函数 编写 代码 : 映射 (map) 和 归 约 (reduce)。 主 控制 器 把 输入 数据 分 成 大 的 块 ， 并 指 
派 不 同 的 处 理 器 对 每 个 块 执行 映射 函数 。 其 他 处 理 器 (也 许 是 同一 批 的 处 理 器 ) 被 指派 对 映射 函 
数 的 输出 片段 执行 归 约 函数 。 


9.2.1 存储 模式 

为 使 map-reduce 架构 易于 理解 ， 我 们 应 该 假设 有 一 个 大 规模 的 并 行 机 器 ， 它 最 像 无 共享 机 
器 。 通 常 ， 处 理 器 是 一 些 成 品 计算 机 ， 安 装 在 机 架 上 并 且 一 排 处 理 器 用 简单 的 通信 网 络 连接 。 若 
机 架 多 于 一 个 ， 则 机 架 之 间 也 要 用 简单 的 网 络 连 接 。 

假设 数据 存储 在 文件 里 。 特 别 是 ， 与 传统 系统 中 的 文件 相 比 这 些 文件 非常 大 。 例 如 ， 一 个 文 
件 也 许 包含 了 一 个 非常 大 的 关系 表 中 的 所 有 元 组 ， 或 者 这 个 文件 是 如 11.1.4 节 讨 论 的 1TB 的 
“市 场 篮子 ” 。 另 一 个 单 文件 的 例子 是 我 们 将 在 12. 2. 2 节 讨论 的 “Web 转移 矩阵 ”， 它 表示 了 一 个 
以 网 页 作为 结 点 且 以 超 链接 作为 边 的 图 。 

文件 被 分 割 成 大 块 ， 它 也 许 是 一 个 磁盘 的 几 个 完整 的 柱 面 ， 通 常 又 有 许多 兆 字 节 。 为 实现 可 
恢复 性 ， 每 个 大 块 都 被 复制 几 次 ， 所 以 当 块 所 在 的 磁盘 裔 溃 之 后 它 不 会 丢失 。 


9.2.2 映射 函数 

图 9-4 显示 了 用 户 定义 的 映射 与 妇 约 函数 所 做 的 事情 的 要 点 。 尽 管 实际 上 输入 可 以 是 任何 类 
型 的 对 象 ， 但 一 般 情 况 下 将 输入 看 作 关键 字 - 值 的 记录 集合 。 映 射 函数 被 位 于 许多 处 理 器 上 的 
一 个 或 多 个 进程 执行 ， 每 个 进程 工作 在 整个 输入 数据 的 一 个 信 据 上 。 
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图 9-4 ”映射 与 归 约 函数 的 执行 





全 ”我 们 将 要 看 到 ，map-reduce 算法 的 输出 总 是 关键 字 - 值 对 的 集合 。 由 于 在 一 些 应 用 中 构造 两 个 或 多 个 map- reduce 
操作 是 有 用 处 的 ， 习 惯 上 就 假设 输入 和 输出 都 是 关键 字 - 值 对 的 集合 。 
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映射 函数 的 设计 是 以 一 个 关键 字 - 值 对 作为 输入 ， 并 产生 一 组 关键 字 - 值 对 作为 输出 ， 
不 过 : 

。 映射 函数 输出 的 关键 字 和 值 的 类 型 不 需要 与 输入 的 关键 字 和 值 的 类 型 相同 。 

。 映射 函数 输出 的 “关键 字 ” 并 不 是 数据 库 意义 上 的 真正 的 关键 字 ， 也 就 是 说 ， 可 以 有 许多 
关键 字 - 值 对 有 相同 的 关键 字 。 然 而 ， 输 出 对 中 的 关键 字 域 在 随后 要 解释 的 归 约 过 程 中 
具有 特殊 的 作用 。 

所 有 映射 进程 的 执行 结果 是 一 个 关键 字 - 值 对 的 集合 ， 称 作 中 间 结 果 。 这 些 关 键 字 - 值 对 

是 映射 函数 作用 于 每 个 输入 对 的 输出 ， 每 个 输出 对 出 现在 产生 它 的 处 理 嚣 上。 记 住 ， 可 能 有 很 多 
映射 进程 在 不 同 的 处 理 器 上 针对 输入 文件 的 不 同 部 分 执行 相同 的 算法 。 

例 9.3 我 们 将 考虑 一 个 例子 ， 如 3. 1.8 节 中 所 讨论 的 ， 为 文档 中 的 单词 做 倒 排 索引 。 就 是 
说 ,我 们 的 输入 是 一 个 文档 的 集合 ， 我 们 希望 为 文档 中 每 个 单词 构造 一 个 包含 这 个 词 至 少 一 次 
的 文档 的 列表 作为 最 后 的 输出 (不 是 映射 的 输出 )。 输 入 是 关键 字 - 值 对 的 集合 ， 对 中 关键 字 是 
文档 的 标识 ， 值 是 对 应 的 文档 。 

映射 函数 把 一 个 由 文档 标识 i 和 文档 a 构成 的 对 作为 输入 。 映 射 晒 数 逐 字符 地 扫描 4， 每 发 
现 一 个 单词 w 它 就 输出 一 个 对 (w，i) 。 注 意 在 输出 中 ， 关 键 字 是 这 个 单词 ， 而 对 应 的 值 是 文档 
标识 。 每 一 个 标识 -文档 对 的 映射 函数 输出 是 一 组 单词 - 标识 对 。 没 有 必要 关注 文档 中 的 重复 
单词 ， 消 除 重复 可 以 在 稍 后 的 归 约 阶段 完成 。 中 间 结 果 是 所 有 的 单词 -标识 对 的 集合 ， 该 集合 由 
输入 数据 库 中 的 所 有 文档 生成 。 


9.2.3 归 约 函数 

第 二 个 用 户 定义 的 函数 一 一 归 约 ,也 是 被 位 于 许多 处 理 嚣 上 的 一 个 或 多 个 进程 执行 。 归 约 
函数 的 输入 是 一 个 来 自 中 间 结 果 的 关键 字 ， 连 同 中 间 结 果 中 所 有 与 这 个 关键 字 成 对 出 现 的 值 的 
清单 。 重 复 的 值 还 没有 被 消除 。 

在 图 9-4 中 ,我们 建议 4 个 处 理 器 中 每 一 个 的 映射 函数 输出 都 被 分 布 在 4 个 处 理 嚣 上， 每 个 
处 理 器 将 在 中 间 结 果 的 一 个 子 集 上 执行 归 约 操作 。 不 过 ， 有 很 多 方法 可 以 完成 这 种 分 布 。 例 如 ， 
每 个 映射 进程 可 以 把 它 的 输出 留 在 本 地 磁盘 上 ， 一 个 归 约 进程 可 以 通过 任何 连接 处 理 器 的 网 络 
或 总 线 取 回 中 间 结 果 中 它 需 要 的 那 一 部 分 。 

归 约 函数 自己 会 把 与 一 个 给 定 关 键 字 丰 相关 联 的 值 组 合成 列表 ， 结 果 是 大和 某 种 类 型 的 一 个 
值 构成 对 。 在 许多 简单 的 情形 中 ， 归 约 函 数 是 可 结合 且 可 交换 的 ， 并 且 整 个 值 列表 被 归 约 成 单个 
与 列表 元 素 类 型 相同 的 值 。 例 如 ， 如 果 归 约 是 加 法 ， 结 果 就 是 一 些 数字 的 列表 。 

当归 约 是 可 结合 和 可 交换 的 时 候 ， 就 有 可 能 通过 在 映射 进程 结束 之 前 把 归 约 操作 应 用 于 映 
射 进程 计算 出 来 的 结果 对 来 加 速 归 约 的 执行 。 此 外 ， 如 果 一 个 映射 进程 计算 出 来 的 结果 中 有 超 
过 一 个 中 间 结 果 对 有 相同 的 关键 字 ， 则 归 约 操作 就 立即 把 这 些 对 组 合 起 来 ， 不 需要 等 到 将 它们 
传递 给 该 关键 字 的 归 约 进程 。 

例 9.4 让 我 们 考虑 完成 例 9.3 的 归 约 函数 ， 计 算出 倒 排 索引 。 中 间 结 果 由 (w，[， 
计 ，…, 计 ]) 形 式 的 对 组 成 ， 其 中 i 是 文档 标识 的 列表 ， 每 一 个 都 代表 着 单词 w 出现 一 次 。 我 们 需 
要 的 归 约 函数 接收 标识 的 列表 ， 消 除 重 复 ， 并 对 无 重复 的 标识 列表 排序 。 

注意 这 种 充分 利用 任何 可 用 的 并 行 性 的 组 织 计算 的 方式 。 映 射 函数 作用 于 单个 文档 ， 所 以 
数据 库 中 有 多 少 文档 我 们 就 可 以 有 多 少 进程 和 处 理 器 。 归 约 函 数 作用 于 一 个 单词 ， 所 以 数据 库 
中 有 多 少 单词 我 们 就 可 以 有 多 少 进程 和 处 理 器 。 当 然 ， 实 际 中 是 不 可 能 使 用 这 么 多 处 理 器 的 。 口 

例 9.5 假如 我 们 不 是 要 创建 倒 排 索引 ， 而 是 要 创建 单词 计数 。 也 就 是 说 ， 对 于 每 一 个 在 我 
们 数据 库 的 文档 中 至 少 出 现 一 次 的 单词 w， 我 们 想 要 输出 这 样 的 对 (w，c) ， 其 中 < 是 单词 ww 在 所 
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有 文档 中 出 现 的 次 数 。 映 射 函 数 接收 一 个 文档 作为 输入 ， 逐 字符 遍历 文档 ， 每 次 遇 到 另外 一 个 单 
词 w， 就 输出 对 (w，1)。 中 间 结 果 就 是 数据 对 (w,，1) ，(w;，1) ，… 的 一 个 列表 。 

在 这 个 例子 中 ， 归 约 函 数 是 整数 的 加 法 ,也 就 是 说 ， 归 约 函 数 的 输入 是 (w，[1,，1， 

1] ) ， 每 个 1 就 是 单词 w 的 一 次 出 现 。 归 约 函 数 把 1 加 起 来 得 出 计数 。 口 

例 9.6 在 map-reduce 架构 中 表示 关系 的 连接 需要 一 点 技巧 ， 在 这 个 简单 的 特殊 情形 中 ,我 
们 要 进行 关系 R(A4，B) 和 关系 3(B，C) 的 自然 连接 。 首 先 ， 映 射 函 数 的 输入 是 关键 字 - 值 对 (>， 
t), Hes BRMS, t ERR r 的 一 个 元 组 。 输 出 是 一 个 单一 对 ， 它 由 元 组 上 中 的 连接 值 刀 和 另 
一 个 对 构成 ， 这 个 对 由 x( 让 我 们 知道 元 组 来 源 于 哪 一 个 关系 ) 和 元 组 上 的 另 一 个 属性 ， 或 者 是 4 
(如 果 x=R) 或 者 是 C( 如 果 x=5) 构 成 。 所 有 形式 为 (8，(R，a) ) 或 (46，(S$，e) ) 的 记录 构成 了 
中 间 结 果 。 

归 约 函数 接收 一 个 属性 8 的 值 & 作为 关键 字 ， 连同 由 形 如 (R，a) 或 者 (S$，c) 对 组 成 的 一 个 
列表 。 包 含 互 属性 值 的 连接 结果 的 元 组 数量 与 列表 中 (R，a) 的 c (S, ec) 的 配对 的 数量 一 
样 。 因 此 ， 归 约 函 数 必须 能 够 从 输入 列表 中 将 关系 尺 的 4 值 和 和 关系 $ 中 的 C 值 提取 出 来 ， 这 些 
值 利用 “作为 中 间 属 性 以 所 有 尽 可 能 的 方式 配对 并 形成 一 个 结果 元 组 。 口 


9.2.4 习题 
习题 9. 2. 1 Æ map-reduce 架构 下 表达 如 下 的 关系 操作 : ajm; b)oc; c) RUS; d) RNS; e) RPdcS。 
习题 9. 2.2 ”修改 例 9. 5， 计 算出 现 每 个 单词 w 的 文档 数量 。 


9.3 分 布 式 数据 库 


我 们 现在 来 考虑 分 布 式 数 据 库 系统 的 要 素 。 分 布 式 系统 中 ,许多 相对 自治 的 处 理 器 可 能 参 
与 数据 库 操 作 。 一 个 分 布 式 系统 与 一 个 无 共享 并 行 系统 的 区 别 是 对 通信 代价 的 假定 。 正 常情 况 
下 ， 无 共享 并 行 系统 中 的 信息 传递 代价 相对 于 磁盘 访问 和 其 他 代价 是 很 小 的 。 在 分 布 式 系 统 中 ， 
处 理 器 物理 上 上 距离 很 远 ， 并 不 在 一 个 房间 。 连 接 处 理 器 的 网 络 比 无 共享 系统 网 络 的 容量 小 得 多 。 

分 布 式 数据 库 有 显著 的 优点 。 像 并 行 系统 一 样 ， 分 布 式 系统 可 以 使 用 很 多 处 理 器 由 此 可 以 
加 速 查询 。 另 外 ， 因 为 处 理 器 是 大 范围 分 离 的 ， 可 通过 在 多 个 站 点 复制 数据 以 增加 失败 情况 下 的 
恢复 能 力 。 

另 一 方面 ， 分 布 式 处 理 增加 了 数据 库 系 统 各 个 方面 的 复杂 性 ， 因 此 ， 即 使 是 DBMS 中 最 基本 
的 组 成 部 分 的 设计 ， 我 们 也 需要 重新 考虑 。 由 于 通信 开销 可 能 比 内 存 处 理 开 销 中 要 大 得 多 ， 关 键 
问题 是 如 何在 站 点 之 间 传 送 消息 。 这 一 节 我 们 将 介绍 最 基本 的 问题 ， 后 面 几 节 主 要 讨论 分 布 式 
数据 库 中 出 现 的 两 大 问题 : 分 布 式 提交 和 分 布 式 封 锁 。 


9. 3.1 数据 的 分 布 

数据 分 布 的 一 个 重要 原因 是 由 于 组 织 机 构 自 身分 布 在 若干 结 点 上 ， 而 每 个 结 点 都 有 主要 与 
该 结 点 密切 相关 的 数据 。 例 如 : 

1. 一 个 银行 可 能 有 许多 分 行 。 每 个 分 行 (或 给 定 城市 中 所 有 分 行 构成 的 一 个 组 ) 将 保存 该 分 
行 (城市 ) 维护 的 账户 数据 库 。 客 户 可 以 选择 在 任何 一 个 分 行 存 款 ， 但 常常 会 在 “ 自己 的 分行 ( 即 
保存 该 客户 账户 数据 的 分 行 ) 存 款 。 银 行 的 中 央 机 构 也 可 能 保存 数据 ， 如 员工 记录 或 像 当 前 利率 
这 样 的 政策 。 当 然 ， 各 分 行 的 记录 都 有 备份 ， 这 个 备份 可 能 既 不 在 分 行 机 构 ， 也 不 在 中 央 机 构 。 

2. 一 个 连锁 商店 可 能 有 许多 单独 的 商店 。 每 个 商店 (或 给 定 城市 所 有 商店 构成 的 一 个 组 ) 有 
该 商店 的 销售 和 存货 数据 库 。 可 能 有 一 个 中 央 机 构 ， 它 保存 员工 数据 、 整 个 连锁 商店 的 存货 数 
据 、 信 用 卡 客户 数据 ， 以 及 供应 商 的 信息 ， 例 如 货物 尚未 交付 的 订单 和 欠 债 情况 。 此 外 ， 所 有 商 
店 销售 数据 的 一 个 副本 可 能 都 存放 在 一 个 数据 仓库 中 ， 可 以 用 来 通过 分 析 员 的 即席 查询 分 析 和 
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预测 销售 情况 。 

3. 一 个 数字 图 书馆 可 能 由 一 些 大 学 联合 构成 ， 每 个 大 学 都 有 一 些 在 线 书籍 和 其 他 文档 。 在 
任 一 结 点 上 进行 搜索 都 将 查看 到 所 有 结 点 文档 的 目录 ， 并 且 在 某 个 结 点 上 有 满足 条 件 的 文档 时 
提交 该 文档 的 一 个 电子 拷贝 。 

在 某 些 情况 下 ,逻辑 上 看 作 一 个 关系 的 数据 可 能 在 多 个 结 点 上 进行 划分 。 例 如 ,我们 可 以 认 
为 连锁 商店 只 有 单独 的 一 个 关于 销售 的 关系 ， 如 


Sales(item, date, price, purchaser) 


但 是 ， 这 个 关系 并 非 物 理 地 存在 ， 而 是 一 些 模式 相同 的 关系 的 并 ， 其 中 的 每 个 关系 存在 连锁 店 的 
一 个 商店 中 。 这 些 局 部 的 关系 称 为 片段 ， 将 这 个 逻辑 关系 划分 为 物理 片段 的 过 程 称 为 关系 Sales 
的 水 平分 解 。 我 们 认为 这 一 划分 是 “水 平 的 ”， 这 是 因为 我 们 可 以 把 这 一 划分 看 作 是 用 若 于 水 平 
线 将 单一 的 关系 Sales 的 元 组 分 隔 成 每 个 商店 的 元 组 集合 。 

在 另 一 些 情 况 下 ， 分 布 式 数据 库 似 乎 对 关系 做 “垂直 "划分 ， 即 将 一 个 逻辑 的 关系 分 解 为 两 
个 或 更 多 关系 ， 每 个 关系 有 原来 的 一 个 属性 子 集 且 位 于 不 同 结 点 。 例 如 ， 如 果 我 们 想 要 找 出 Bos- 
ton 商店 的 哪些 客户 的 销售 记录 属于 信用 卡 付款 拖欠 90 天 以 上 ， 最 好 有 一 个 关系 (视图 ) 包含 
Sales 中 的 货物 、 日 期 、 购 买 者 信息 以 及 该 购买 者 最 后 一 次 信用 卡 付款 日 期 。 但 是 ， 在 我 们 所 描 
述 的 场景 中 ， 这 一 关系 是 垂直 分 解 的 ， 并 且 我 们 需要 在 总 部 将 Boston 商店 的 Sales 片段 与 信用 卡 
客户 关系 进行 连接 。 


9.3.2 分布 式 事务 

数据 分 布 的 结果 是 一 个 事务 可 能 涉及 多 个 结 点 的 处 理 ， 因 此 事务 的 模型 必须 修改 。 事 务 不 
再 是 单个 结 点 上 的 单个 处 理 器 所 执行 的 一 段 代 码 ， 该 处 理 器 只 需 与 一 个 调度 器 和 一 个 日 志 管理 
器 进行 通信 。 相 反 地 ， 事 务 由 一 些 相互 通信 的 事务 成 分 构成 ， 每 个 部 件 位 于 不 同 的 结 点 并 与 局 部 
的 调度 器 和 日 志 管理 器 通信 。 因 此 ， 两 个 需要 重新 考虑 的 重要 问题 是 : 

1. 我 们 如 何 管理 分 布 事务 的 提交 /中 止 决定 ? 如 果 事 务 的 一 个 部 件 希望 中 止 整个 事务 ， 而 其 
他 部 件 没有 遇 到 任何 问题 因而 希望 提交 事务 ， 这 时 会 发 生 什么 ?我们 在 9.5 节 讨论 一 种 称 为 “两 
阶段 提交 ”的 技术 ; 它 能 做 出 正确 的 决定 ， 并 且 常 常 允 许 正常 的 结 点 在 其 他 结 点 发 生 故 障 时 仍 能 
继续 工作 。 

2. 我 们 怎样 保证 涉及 多 个 结 点 上 部 件 的 事务 的 可 串 行 性 ? 在 9.6 节 我 们 具体 讨论 封锁 ， 看 
一 看 锁 表 怎样 用 来 支持 数据 库 元 素 的 全 局 封锁 ， 并 因而 支持 分 布 式 环境 中 事务 的 可 串 行 性 。 


9.3.3 数据 复制 

分 布 式 系统 的 一 个 重要 好 处 是 可 以 复制 数据 ， 即 在 不 同 的 结 点 上 建立 数据 的 副本 。 这 样 做 
的 一 个 动机 是 ， 如 果 一 个 结 点 发 生 故 障 ， 可 能 另 一 个 结 点 可 以 提供 与 故障 结 点 相同 的 数据 。 另 一 
个 作用 是 可 以 通过 在 提交 查询 的 结 点 上 建立 所 需 数据 的 副本 来 提高 回答 查询 的 速度 。 例 如 : 

1. 银行 可 以 在 每 个 分 行 建 立 当 前 利率 政策 的 副本 ,这样 关于 利率 的 查询 就 不 需要 送 到 中 央 
机 构 。 

2. 连锁 店 可 以 在 每 个 商店 维护 供应 商 信息 副本 ， 这 样 ， 对 供应 商 信息 的 局 部 查询 (例如 ， 经 
理 希 望 知道 某 个 供应 商 的 电话 以 查询 送 货 情 况 ) 就 可 以 在 不 向 中 央 机 构 传 送 消 息 的 前 提 下 得 以 
解决 。 

3. 在 电子 图 书馆 的 例子 中 ， 如 果 某 个 学 校 的 学 生 需 要 读 某 个 指定 的 文档 ， 该 文档 的 一 个 副 
本 可 以 暂时 缓存 在 这 个 学 校 。 
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然而 ， 数 据 复制 带 来 了 几 个 问题 。 

a) 我 们 怎样 保持 副本 相互 一 致 ? 实质 上 ， 对 有 副本 的 数据 库 元 素 的 更 新 将 变 成 更 新 所 有 副 
本 的 分 布 式 事务 。 

b) 我 们 怎样 确定 维护 多 少 副本 以 及 在 什么 地 方 维护 副本 ? 副本 越 多 ， 更 新 就 越 难 ， 而 查询 
就 越 容易 。 例 如 ， 一 个 极 少 更 新 的 关系 可 以 在 各 个 地 方 都 有 副本 ， 从 而 使 效率 最 高 ; 而 一 个 频繁 
更 新 的 关系 或 许 就 只 有 一 个 副本 和 一 个 备份 。 

c) 当 网 络 通信 发 生 故 障 时 ， 同 一 数据 的 不 同 副本 可 能 各 自演 化 ， 因 而 在 网 络 连接 恢复 时 必 
须 对 各 个 副本 进行 协调 ， 这 种 情况 需要 做 什么 ? 

93.4 ”习题 

! 习题 9. 3. 1 下 面 的 习题 使 你 能 体会 到 在 决定 数据 复制 策略 时 将 会 遇 到 的 一 些 问 题 。 假 设 有 个 结 点 都 要 访 
问 关系 R。 对 于 i=1, 2，…, n， 第 i 个 结 点 每 秒 中 都 提出 关于 RR 的 查询 q 和 对 RR 的 更 新 u;。 如 果 在 提出 
查询 的 结 点 上 有 的 副本 ， 那 么 查询 执行 的 开销 为 <， 否 则 开销 为 8c。 在 提出 更 新 的 结 点 上 ， 更 新 的 副 
本 的 开销 为 4， 而 更 新 其 他 结 点 上 每 个 副本 的 开销 为 124。 对 于 一 个 很 大 的 n， 你 如 何 根据 这 些 参数 选择 
在 什么 样 的 结 点 集合 上 复制 R。 


9.4 分 布 式 查询 处 理 


我 们 现在 开始 讨论 运行 在 分 布 式 机 器 网 络 中 的 查询 优化 。 当 处 理 器 之 间 的 通信 开销 很 大 时 ， 
就 会 有 一 些 查询 计划 比 我 们 在 9. 1 节 为 那些 可 以 本 地 通信 的 处 理 器 提出 的 计划 更 有 效 。 我 们 的 主 
要 目标 是 利用 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》 习 题 2. 4. 8 介绍 的 半 连 接 操作 符 , 提出 一 种 计 
算 连 接 的 新 方法 。 


9. 4.1 分 布 式 连 接 操作 问题 
假设 我 们 要 计算 RCA, B) MS(B，C)。 然 而 如 图 9-5 Bim, RAS 位 于 网 络 的 不 同 结 点 上 。 
有 两 个 明显 的 方法 计算 连接 。 


— 一 一 


图 9-5 连接 网 络 中 不 同 结 点 上 的 关系 


1. ERASMAS S 所 在 的 站 点 ， 然 后 在 S 所 在 的 站 点 上 计算 连接 。 

2. 把 S 的 一 个 副本 传 给 RR 所 在 的 站 点 ， 然 后 在 R 所 在 的 站 点 上 计算 连接 。 

在 很 多 情况 下 ， 两 个 方法 中 的 任何 一 个 者 可以。 然而， 问题 出 现 了 ， 比 如 : 

a) 如 果 两 个 站 点 间 的 通道 容量 太 小 会 发 生 什么 ,例如 电话 线 或 者 无 线 连 接 ? 这 样 ， 连 接 操 
作 的 开销 主要 是 复制 一 个 关系 所 花费 的 时 间 ， 所 以 需要 设计 我 们 的 查询 计划 使 通信 开销 最 小 。 

b) 即使 通信 很 快 ， 若 共有 属性 B 的 数值 比 4 和 5C 的 数值 小 得 多 ， 也 会 有 更 好 的 查询 计划 。 
比如 ，B 可 能 是 文档 或 视频 的 标识 符 ， 而 4 和 C 是 文档 或 视频 本 身 。 


9.4.2 半 连 接 化 简 

上 述 两 个 问题 均 可 使 用 同类 查询 计划 解决 ， 这 类 计划 就 是 只 把 每 个 关系 表 中 相关 的 部 分 传送 给 
另 一 个 关系 表 所 在 的 站 点 。 回 想 关系 表 R(X, Y) 和 S(Y,，2Z) 的 半 连 接 是 RP<S= Rm(7y(5))， 
其 中 X,Y 和 Z 都 是 属性 的 集合 。 也 就 是 说 ， 把 5 投影 到 共同 属性 上 ， 然 后 用 这 个 投影 与 做 自 
REH. m (SERA - 投影 操作 ， 所 以 消除 了 重复 。 在 做 自然 连接 时 ， 参 与 操作 的 关系 表 中 一 
个 表 的 属性 是 另 一 个 表 的 属性 的 子 集 ， 这 是 不 常见 的 ， 但 连接 的 定义 涵盖 了 这 种 情况 。R P< 5 的 
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计算 结果 包含 了 R 中 所 有 那些 至 少 与 5 中 的 一 个 元 组 有 连接 的 元 组 ， 换 个 说 法 就 是 ， 半 连接 R 
D< S 消除 了 RR 中 那些 悬挂 的 元 组 。 

把 wry(5) 传 送 给 RR 所 在 的 站 点 ， 就 可 以 在 那里 计算 RP<S 了。 我 们 知道 中 那些 不 在 RD< 
S 中 的 元 组 不 可 能 在 Rm4S 中 ， 因 此 只 需要 把 尺 P< $ 而 不 是 整个 尺 传 送 给 $ 所 在 的 站 点 并 在 那里 
计算 连接 。 对 于 R(4，B) 和 5S(B,，C) 该 查询 计划 如 图 9-6 a, SR, AP RAS 角色 互 换 后 
有 一 个 对 称 的 查询 计划 。 


— > 
~— Ty(S) 
R(X,Y ) RD<S —» SCLZ) 


图 9-6 利用 半 连 接 使 通信 开销 最 小 


这 种 半 连 接 查询 计划 或 尺 和 S 互 换 后 的 查询 计划 是 否 比 那 两 个 明显 的 查询 计划 中 的 一 个 更 
加 有 效 取决 于 几 个 因素 : 首先 ， 如果 5 在 Y 上 的 投影 得 到 的 关系 比 S 小 得 多 ,那么 把 rr(S) 传 送 
给 尺 所 在 的 站 点 比 传送 给 S 自己 的 开销 要 小 很 多 。 如 果 满 足下 面 两 个 或 一 个 条 件 ，ry (3 ) 就 会 比 
S 小 : 

1. 有 很 多 重复 需要 消除 ， 即 $ 中 很 多 元 组 的 了 属性 值 相同 。 

2. 属性 Z 的 内 容 比 属性 了 的 内 容 要 大 ,例如 Z 包含 的 属性 值 是 音频 、 视 频 或 者 文档 。 

为 确认 半 连 接 计 划 优 于 其 他 查询 计划 ， 我 们 还 需要 知道 尺 P< 5 的 大 小 比 R 要 小 ， 也 就 是 说 ， 
及 在 它 与 $ 的 连接 操作 中 必须 包含 很 多 悬挂 元 组 。 


9.4.3 多 个 关系 的 连接 

当 我 们 进行 两 个 关系 的 自然 连接 时 ， 只 有 一 个 半 连 接 是 有 用 的 。 等 值 连接 也 是 这 样 ， 因 为 我 
们 会 把 进行 等 值 匹 配 的 属性 对 当 作 它们 有 相同 的 名 字 ， 并 把 等 值 连接 当 作 自然 连接 。 然 而 ， 当 我 
们 对 处 于 不 同 站 点 上 的 三 个 或 多 个 关系 做 自然 连接 或 者 同等 连接 的 时 候 ， 几 个 奇怪 的 事情 发 
生 了 。 

© 在 把 这 些 关系 传送 其 他 站 点 做 连接 之 前 ， 我 们 可 能 需要 做 多 个 半 连 接 操作 来 消除 关系 中 

的 悬挂 元 组 。 

© 对 一 些 关系 模式 集合 ， 不 存在 有 限 的 半 连 接 操作 序列 来 消除 所 有 的 悬挂 元 组 。 

。 有 可 能 识别 那些 可 利用 半 连 接 操作 在 有 限 步 又 内 消除 悬挂 元 组 的 关系 模式 的 集合 。 

例 9.7 为 了 发 现在 对 多 于 两 个 的 关系 进行 自然 连接 时 会 AB 





B C C A 

















出 现 什么 问题 ， 考 虑 R(4，B) ，S(B，C) 和 T(C, 4)。 假 如 R | Ti Ti 1 
和 5S 有 nn 个 完全 相同 的 元 组 : (C1, 1), (2,2), =, (n, | 2 7 7 2 7% 8 
n)| ,7 有 nm -1 个 元 组 : 和 1, 2), (2,3), =, (n-1, |> > 
n)} ， 如 图 9-7 所 示 。 
注意 有 和 5 连接 得 到 n 个 元 组 

{(1, 1, 1), (2, 2, 2), «+, (n, n, n)} 图 9-7 用 半 连 接 消除 悬挂 元 组 非 
这 些 元 组 没有 一 个 可 以 和 了 的 元 组 连接 ， 原因 是 m5 的 所 有 常 慢 的 三 个 关系 


元 组 的 4 和 C 是 相等 的 ， 然 而 了 中 元 组 的 4 和 C 不 相等 ， 即 
R mS m4 了 T BRAS, BRA PHA ILA REE 

然而 ， 没 有 一 个 半 连 接 可 以 从 任何 一 个 关系 中 消除 多 于 一 个 元 组 。 例 如 ，S$ P< 了 仅 从 S 中 消 
除 一 个 元 组 (n,n) ， 近 似 地 ， 因 为 mi(7) =12, 3, =, nj ，RP<T 仅 从 RR 中 消除 一 个 元 组 (1， 
1) 。 我 们 继续 该 过 程 ， 利 用 RP< 5 从 RR 消除 一 个 元 组 (n,n) ,然后 ,TP<R 从 了 消除 一 个 元 组 
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(zz -1，Pm) ， 现 在 再 计算 SP<7T， 从 $ 消除 一 个 元 组 (n -1，n -1) ， 等 等 。 我 们 实际 上 需要 3zm - 
1 个 半 连 接 才 能 使 三 个 关系 都 变 空 ， 这 里 不 再 证 明 。 口 

因为 例 9.7 中 的 nn 是 任意 的 ,我们 可 以 看 到 ， 针 对 这 里 讨论 的 特定 关系 ， 不 管 关系 中 的 当前 
数据 是 什么 ， 都 没有 固定 的 有 限 的 半 连 接 操作 序列 可 以 保证 消除 所 有 的 悬挂 元 组 。 另 一 方面 ， 我 
们 将 要 看 到 ， 三 个 或 多 个 关系 上 的 许多 典型 的 连接 确实 有 确定 的 有 限 的 半 连 接 序列 ， 可 以 保证 
消除 所 有 的 悬挂 元 组 。 我 们 称 这 样 的 半 连 接 序 列 为 关系 的 完全 化 简 。 


9.4.4 ” 非 循环 超 图 

让 我 们 假设 正在 对 几 个 关系 进行 自然 连接 ， 但 正如 提 到 过 的 ， 通 过 假定 不 同 关系 中 进行 等 
值 连接 的 属性 同名 ， 并 对 属性 重 命名 使 得 该 假定 成 为 事实 ， 也 可 以 处 理 等 值 连接 。 如 果 我 们 要 做 
自然 连接 ， 那 么 可 以 为 每 个 自然 连接 画 一 个 有 用 的 图 ， 称 作 超 图 ， 也 就 是 有 超 边 的 结 点 集合 ， 其 
中 超 边 是 结 点 的 集合 。 一 个 传统 的 图 就 是 一 个 其 所 有 超 边 是 大 小 为 2 的 集合 的 超 图 。 

通过 为 每 个 属性 名 创建 一 个 结 点 形成 一 个 自然 连接 的 超 图 ， 每 个 关系 由 包含 它 所 有 属性 的 
MURR» 

$9.8 图 9-8 是 例 9.7 中 3 个 关系 的 超 图 ， KARA, B) RE 
示 成 超 边 14，Bi ,关系 5 被 表示 成 超 边 {1B8，C| ,关系 7 是 超 边 14， 
C|。 注 意 这 个 超 图 确实 是 一 个 图 ， 因 为 超 边 是 一 对 结 点 。 观 察 得 出 ， 
图 中 的 3 个 超 边 构成 一 个 环 。 我 们 将 要 看 到 ， 正 是 这 个 环 使 它 不 存在 
完全 化 简 。 

然而 ， 关 于 什么 时 候 超 图 是 循环 的 问题 有 一 个 不 那么 直观 的 答案 。 
图 9-9 是 男 一 个 超 图 ， 它 可 以 用 来 表示 关系 R(4, E, F), S(A, B, 
C), T(C, D, E)MUCA, C, EE) 的 连接 。 这 个 超 图 是 一 个 真正 的 超 
图 ， 因 为 它 有 包含 两 个 以 上 结 点 的 超 边 。 它 还 碰巧 是 一 个 “ 非 循环 " 超 图 ， 尽 管 看 起 来 有 环 。 O 

为 了 正确 定义 非 循环 超 图 ， 从 而 得 出 存在 一 个 完全 化 简 的 条 件 ， 





图 9-8 例 9.7 的 超 图 


我 们 首先 需要 一 个 超 图 中 “ 耳 条 ”的 概念 。 一 个 超 边 刀 是 一 只 耳 柔 ， (a\ 
若 在 同一 个 超 图 中 存在 另外 的 超 边 CE 使 如 中 的 每 个 结 点 满足 下 列 情 G 
Re CMY 


1. REREH H, ~ > 
2. 也 包含 在 6 中。 Ny 

我 们 称 6 消费 万， 其 中 的 原因 在 我 们 讨论 超 图 的 化 简 的 时 候 会 
变 得 清楚 起 来 。 图 9-9 一 个 非 循环 超 图 

例 9.9 在 图 9-9 中 , 超 边 万 = |4，E，F| 是 一 个 耳 条 ,6 的 角 
色 由 |4，C，E| 来 担任 。 结 点 是 玉 独 有 的 ， 它 在 其 他 超 边 中 不 出 现 ， 甩 的 另外 两 个 结 点 (4 和 
EEE 6 的 成 员 。 口 

一 个 超 图 是 非特 环 的 ， 若 它 可 以 被 一 序列 的 耳 杀 简化 化 简 为 一 个 超 边 。 一 个 耳 打 简化 就 是 
一 个 耳 打从 超 图 中 的 简单 消除 ， 连 同 那些 只 在 耳 打 中 出 现 的 结 点 。 注 意 如 果 在 某 一 步 又 中 一 个 
耳 打 没有 被 消除 ， 那 么 在 其 他 耳朵 被 消除 后 它 依然 是 耳朵。 然而 ， 可 能 的 情况 是 一 个 超 边 本 来 不 
是 耳 失 ， 在 另 一 条 超 边 消除 后 变 成 了 耳 条 。 

例 9.10 图 9-8 不 是 非 循环 的 ， 没 有 超 边 是 耳 傈 ， 所 以 我 们 不 能 从 任何 一 个 耳 杂 开始 化 简 。 
例如 ，14，B| 不 是 一 个 耳 打 ， 因 为 4 和 8 都 不 是 一 个 超 边 独 有 的 ， 并 且 没 有 另外 一 个 超 边 同时 
包含 4 和 有 B。 

另 一 方面 ， 图 9-9 是 非 循环 的 。 正 如 我 们 在 例 9.9 HEA, |4, E, FEDER, 1A, B, 
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CAIC, D, E} tad. AGRA ALA, E, F), RINRI TR 
We, Sa FART , US 个 结 点 和 3 个 超 边 还 在 ， 如 图 9-10 所 示 。 

因为 在 图 9-10 H(A, B, ClB—-?tHA, BOR HRMLR 
们 要 消除 它 和 结 点 B, RE, RNR FMW, C, EL AIC, D, 
E| ， 每 一 个 都 是 耳 打 ， 注 意 14，C，E| 直到 现在 才 是 耳 人 条。 我 们 ax 
可 以 消除 其 中 一 个 耳 失 ， 留 下 一 个 超 边 ， 证 明了 图 9-9 是 一 个 非特 O 
环 超 图 。 口 A 
9.4.5 非 循环 超 图 的 完全 化 简 l 

3 ER ELAR (1b UP RIIT AA FE a AEE A — A 
完全 化 简 。 对 一 个 非 循环 超 图 中 的 超 边 数量 利用 归纳 法 ， 我 们 创建 
半 连 接 的 序列 如 下 : 

基础 ”如 果 只 有 一 个 超 边 ， 什 么 也 不 做 。 一 个 关系 的 “连接 ”是 这 个 关系 自己 ， 肯 定 没有 县 
浮 元 组 。 

归纳 ”如 果 超 图 的 超 边 个 数 大 于 1， 那 么 它 一 定 至 少 有 一 个 耳 茶 。 选 择 其 一 ， 记 作 及 ， 且 假 
设 它 被 超 边 C 消费 。 

L 执行 半 连 接 G: =GD<A; 也 就 是 从 6 中 消除 那些 与 豆 没 有 连接 的 元 组 。@ 

2. 递归 地 为 去 掉 豆 的 超 图 找到 一 个 半 连 接 序列 。 

3. 执行 半 连 接 H: = HD< 6。 

例 9. 11 让 我 们 为 关系 R(4, E, F), S(A, B, C), T(C, D, E) 和 U(4，C， 5) 创建 完 
全 化 简 ， 它 们 的 超 图 我 们 在 图 9-9 看 到 过 。 我 们 使 用 耳 淋 的 序列 将 是 及 ， 然 后 5S， 然 后 U， 如 例 
9.10, HIF UR, RANCHER U: =U D<R FH, 

递归 地 ， 我 们 化 简 剩 下 的 三 个 超 边 。 由 于 也 消费 S， 所 以 下 一 步 是 w: = U bp< 5。 递 归 的 下 一 
层 是 了 消费 5， 所 以 增加 一 步 ?7: = TO<U, 现在 只 剩 下 T， 属 于 起 点 的 情况 ， 所 以 什么 也 不 做 。 

最 后 ， 我 们 增加 U: -UC<T EMAAR 忆 的 消除 ， 然 后 ， 增 加 5; = 
5 p< U 完 成 耳 条 5 的 消除 ， 接 下 来 利用 及 : = R < 上 U RREK R HNR. E 
9-9 的 一 个 完全 化 简 的 整个 半 连 接 序列 如 图 9-11 所 示 。 口 

一 旦 我 们 计算 了 完全 化 简 中 的 所 有 半 连 接 ， 知 道 将 被 传送 的 关系 不 再 
包含 悬挂 元 组 且 已 经 最 小 ， 我 们 就 可 以 把 简化 后 的 所 有 关系 复制 到 其 中 
个 站 点 。 事 实 上 ， 如 果 我 们 知道 在 哪个 站 点 进行 连接 ， 那 么 我 们 不 必 消 除 图 9-11 图 9-9 的 一 
那个 站 点 上 关系 的 所 有 悬挂 元 组 。 一 旦 一 个 关系 不 再 用 来 简化 其 他 关系 ， 个 完全 化 简 
我 们 就 停止 对 这 个 关系 应 用 半 连 接 操 作 。 

例 9. 12 图 9-11 的 完全 化 简 后 ， 如 果 在 站 点 S 上 有 一 个 连接 操作 ， 那 么 我 们 就 不 必 做 
S: =5 p< 0 这 一 步 。 但 是 ， 如 果 连 接 是 在 站 点 了 进行 的 ， 我 们 仍 要 进行 7: = T P< 上 5 这 一 步 ,， 因 
为 了 在 后 续 步 又 中 还 要 被 用 来 简化 其 他 关系 。 口 


9.4.6 为 什么 完全 化 简 算法 有 效 
这 个 算法 通过 对 任意 非 循环 超 图 中 超 边 数量 的 归纳 产生 一 个 完全 化 简 ， 下 面 我 们 给 出 这 一 
过 程 的 描述 。 


图 9-10 减少 一 个 耳 条 之 后 








O ”我 们 用 超 边 代 表 的 关系 来 标识 超 边 是 为 了 概念 上 的 方便 。 另 外 ， 如 果 对 应 于 一 个 超 边 的 元 组 集合 是 存储 的 表 ， 
而 不 是 临时 关系 ， 我 们 不 必 像 一 个 步骤 G: = 6 P< 五 所 示 的 那样 用 一 个 半 连 接 来 代替 一 个 关系 ， 而 是 用 一 个 新 的 
临时 关系 G' 来 存储 结果 。 
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基础 ”只 一 个 超 边 。 没 有 悬挂 元 组 ， 所 以 什么 也 不 需要 做 。 

归纳 ” 当 我 们 消除 耳 条 五 时 ,我 们 从 消费 五 的 超 边 6 中 消除 掉 那 些 不 会 和 总 中 至 少 一 个 元 
组 连接 的 所 有 元 组 。 因 此 ,不 论 更 进一步 的 化 简 是 什么 , 包括 形 在 内 的 所 有 超 边 所 对 应 关系 的 
连接 ， 不 会 包含 一 个 与 二 无 连接 的 元 组 。 注 意 ， 由 于 6 是 五 与 其 余 关 系 的 唯一 纽带 ， 所 以 这 个 
表述 是 正确 的 。 

通过 归纳 ， 在 其 余 关 系 的 连接 结果 中 所 有 悬挂 元 组 都 被 消除 了 ， 当 我 们 最 后 做 半 连 接 H: = 
囊 P<C 来 消除 妃 中 的 悬挂 元 组 时 ， 我 们 知道 没有 包含 悬挂 元 组 的 关系 了 。 


9.4.7 习题 

习题 9. 4. 1 确定 下 边 哪个 超 图 是 非 循 环 的 ， 每 个 超 图 用 一 个 它 的 超 边 的 列表 表示 。 
a) 14, B}, IB, C, D}, 1B, E, F}, |F, G, H), |G, I}, 18, H} 

b) |A, B,C, D}, {A, B, E}, {B, D, F}, iC, D, G}, {A, C, B} 
c) |A, B}, {B, C, D}, IB, E, F}, {F, G, H}, {G, It, (A, J} 

习题 9. 4. 2 ”为 习题 9. 4. 1 中 的 非 循环 超 图 创建 一 个 完全 化 简 。 

! 习题 9. 4. 3 ”除了 例 9. 11 中 的 完全 化 简 ， 通 过 为 图 9-9 的 超 图 选择 消除 耳 条 的 其 他 序列 ， 可 以 创建 多 少 个 
其 他 的 六 步 完 全 化 简 。 

! 习题 9. 4.4 ” 非 循 环 图 的 一 个 很 有 名 的 性 质 是 ， 若 从 非 循 环 图 中 剔除 掉 一 个 边 后 它 依然 是 非 循 环 的 。 对 超 图 
来 说 类 似 的 说 法 正确 吗 ? 也 就 是 说 ， 如 果 从 一 个 非 循环 超 图 中 剔除 掉 一 个 超 边 ， 琵 下 的 超 图 仍然 非 循 环 
吗 ? 提示 : 考虑 图 9-9 中 的 非 循环 超 图 。 

! 习题 9. 4. 5 假如 我 们 要 做 R(4，B) 和 5(B8B，C) 的 自然 连接 ，R 和 5 在 不 同 的 站 点 ， 而 其 传送 数据 的 大 小 
是 连接 的 主要 开销 。 假 如 丸和 S 的 大 小 分 别 是 ss Fl ss, a(R) 的 大 小 Pa 是 RR 大 小 的 一 小 部 分 ，ms(5) 的 
大 小 ps 是 $ 大 小 的 一 小 部 分 。 最 后 ， 假 设 ds Fld, 分 别 是 关系 只 和 S 中 悬挂 部 分 的 大 小 。 用 这 六 个 参数 
写 出 计算 RmS 的 四 个 策略 的 开销 表达 式 ， 并 确定 一 种 情形 ， 在 这 种 情形 下 每 种 策略 都 是 最 好 的 。 这 四 种 
策略 是 : 

i) HE REA 5 的 站 点 。 
ii) 将 S 传送 给 RR 的 站 点 。 
iii) 将 ms(5) 传 送 给 R 的 站 点 ， 然 后 将 RP<5 传送 给 5 的 站 点 。 
iv) 将 za(R) 传 送 给 5 的 站 点 ， 然 后 将 5 P<R 传送 给 RR 的 站 点 。 

! 习题 9.4.6 对 位 于 一 个 网 络 中 不 同 结 点 上 关系 的 二 元 操作 ,并非 都 可 以 通过 像 半 连 接 这 样 的 预 操作 缩减 它 
们 的 执行 时 间 。 当 操作 是 a) 交 ; b) 差 ; e) 并 的 时 候 ， 是 否 有 可 能 改进 这 个 明显 的 算法 (把 其 中 的 一 个 关 
系 传送 到 其 他 站 点 )? 


9.5 分 布 式 提 交 


这 一 节 中 ， 我 们 将 讨论 在 多 个 结 点 上 有 组 成 部 分 的 分 布 式 事务 如 何 原子 执行 的 问题 。 下 一 
节 讨 论 分 布 式 事务 的 另 一 个 重要 性 质 ， 即 执行 的 可 串 行 性 。 


9.5.1 支持 分 布 式 原子 性 

我 们 将 以 一 个 例子 来 说 明 可 能 出 现 的 问题 。 

例 9. 13 考虑 9.3 节 我 们 提 到 的 连锁 店 的 例子 。 假 设 连锁 店 的 某 个 经 理想 要 查询 所 有 商店 ， 
找 出 所 有 店 中 牙刷 的 仓储 情况 ， 然 后 指示 将 牙刷 从 一 些 商 店 运 到 另 一 些 商 店 ， 以 平衡 仓储 。 该 操 
作 由 一 个 全 局 的 事务 7 来 完成 ; 事务 了 在 第 i 个 商店 有 组 成 部 分 7;:， 并 且 在 该 经 理 所 位 于 的 机 构 
有 组 成 部 分 Ty. T 执行 的 动作 序列 概括 如 下 : 

1. RAT, 在 经 理 所 在 结 点 上 创建 。 

2.7, 向 所 有 商店 发 送 消息 ， 指 示 它 们 创建 成 分 To 
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3. 每 个 7 在 商店 i 执行 一 个 查询 ， 找 出 该 商店 库存 牙刷 数目 ， 然 后 将 这 一 数目 报告 给 7,。 

4.7, 接收 这 些 数 并 根据 某 种 算法 决定 需要 运输 的 牙刷 数量 , 使 用 的 算法 我 们 在 此 不 需要 讨 
论 。 然 后 ,7 发 送 “ 商 店 10 应 该 运输 500 支 牙 刷 到 商店 7” 这 样 的 消息 给 对 应 的 商店 ( 本 例 中 为 商 
店 7 和 商店 10)。 

5. 接收 到 指示 的 商店 更 新 存货 清单 并 送 货 。 口 

在 例 9. 13 中 很 多 地 方 都 可 能 出 错 ， 而 其 中 的 许多 错误 都 会 导致 了 的 原子 性 受到 破坏 。 也 就 
是 说 ， 组 成 了 的 某 些 动作 得 以 执行 ， 而 另 一 些 动作 却 没有 执行 。 我 们 假定 在 各 个 结 点 上 都 应 该 有 
的 日 志和 恢复 机 制 保证 每 个 T, 的 执行 都 是 原子 的 ， 但 它们 不 能 保证 了 本 身 的 原子 性 。 

例 9. 14 假设 重新 分 配 牙刷 的 算法 中 有 一 个 错误 ， 导 致 要 求 商店 10 运输 的 牙刷 数量 比 该 商 
店 的 库存 量 还 多 。 在 这 种 情况 下 ，7o 将 中 止 ， 牙 刷 不 会 从 商店 10 运 出 ， 且 商店 10 的 存货 清单 也 
不 会 更 改 。 然 而 ， 商 店 7 的 7 没有 发 现任 何 错误 并 提交 ， 它 修改 了 该 商店 的 存货 清单 以 反映 假 
设 应 运输 的 牙刷 数量 。 现 在 ，7 不 仅 不 能 原子 地 执行 (因为 To 永远 也 不 能 完成 ) ， 还 使 分 布 式 数 
据 库 处 于 不 一 致 的 状态 。 口 

导致 问题 的 另 一 种 情况 是 ， 分 布 式 事务 执行 过 程 中 某 个 结 点 可 能 发 生 故 障 或 与 网 络 断 连 。 

例 9.15 假设 在 响应 To 的 第 一 条 消息 时 ，7i 告 诉 7。 自己 的 牙刷 存货 量 。 但 是 ， 商 店 10 的 
Dar Te a RAG, Ty 发 出 的 指示 就 再 也 不 能 被 To 收 到 。 分 布 式 事务 了 能 提交 吗 ? Ti 在 其 所 在 结 
点 恢复 时 应 该 做 什么 ? 口 


9.5.2 两 阶段 提交 

为 了 避免 9. 5. 1 节 中 所 提 到 的 那些 问题 ， 分 布 式 DBMS 在 决定 是 否 提交 一 个 分 布 式 事务 时 使 
用 很 复杂 的 协议 。 在 这 一 节 中 ， 我们 将 描述 这 些 协议 所 基于 的 基本 思想 ， 也 就 是 两 阶段 提交 。。 
通过 做 出 关于 提交 的 全 局 决定 ， 事 务 的 成 分 要 人 么 都 提交 ， 要 人 么 都 不 提交 。 和 往常 一 样 ， 我 们 假设 
每 个 结 点 上 的 原子 性 机 制 保证 该 结 点 上 的 局 部 事务 成 分 要 么 提交 ， 要 么 对 该 结 点 上 的 数据 库 状 
态 不 产生 任何 影响 ;也 就 是 说 ,事务 的 各 成 分 都 是 原子 的 。 因 此 ， 通 过 实行 分 布 式 事务 的 所 有 成 
分 要 么 都 提交 要 么 都 不 提交 这 一 规则 ,我们 可 以 保证 分 布 式 事务 本 身 的 原子 性 。 

下 面 是 关于 两 阶段 提交 的 几 个 要 点 : 

。 在 两 阶段 提交 中 ， 我 们 假设 每 个 结 点 记录 该 结 点 上 动作 的 日 志 ， 但 没有 全 局 的 日 志 。 

。 我们 还 假设 一 个 称 为 协调 器 的 结 点 在 决定 分 布 式 事务 是 否 提交 中 扮演 特殊 的 角色 。 例 如 ， 

协调 器 可 能 是 发 起 事务 的 结 点 ， 比 方 说 9. 5. 1 节 的 例子 中 的 结 点 To。 
。 两 阶段 提交 协议 涉及 协调 器 和 其 他 结 点 之 间 的 消息 发 送 。 在 发 送 每 条 消息 时 ， 发 送 结 点 
都 将 把 该 消息 记录 到 日 志 中 ， 以 便 在 需要 恢复 时 提供 帮助 。 

记 住 这 些 要 点 后 ,我 们 可 以 按照 结 点 之 间 发 送 的 消息 来 描述 两 阶段 提交 。 

阶段 | 

在 两 阶段 提交 的 第 一 个 阶段 中 ， 分 布 式 事务 7 的 协调 器 决定 何 时 提交 7。 大 概 在 事务 了 位 于 
协调 器 结 点 上 的 成 分 准备 好 提交 后 开始 试图 提交 ， 但 原则 上 即使 协调 器 的 成 分 希望 中 止 ， 各 个 
步骤 仍然 要 执行 (然而 正如 我 们 将 看 到 的 那样 ， 这 些 步骤 有 了 极 大 的 简化 ) 。 协 调 器 询问 包含 事 
务 了 的 成 分 的 所 有 绪 点 ， 以 确定 这 些 结 点 希望 提交 还 是 中 止 ， 如 下 : 

1. 协调 器 在 所 在 结 点 的 日 志 中 放 和 人 < Prepare 了 > 日 志 记录 。 

2. 协调 器 向 成 分 所 在 的 各 个 结 点 (原则 上 包含 它 自己 ) 发 送 消息 prepare 7。 

3. 每 个 接收 到 消息 prepare T 的 结 点 决定 该 结 点 上 了 的 成 分 是 提交 还 是 中 止 。 如 果 事 务 成 分 


o 不 要 混淆 两 阶段 提交 和 两 阶段 封锁 。 它 们 是 相互 独立 的 概念 ， 用 来 解决 不 同 的 问题 。 
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尚未 完成 其 行动 ， 结 点 可 以 推迟 发 送 响应 的 消息 ， 但 终究 是 要 发 送 的 。 

4. 如 果 结 点 希望 提交 其 事务 成 分 ， 就 必须 进入 一 个 称 为 预 提交 的 状态 。 一 旦 进入 预 提交 状 
态 ， 结 点 就 不 能 中 止 其 上 的 了 成 分 ， 除 非 协调 器 指示 中 止 事务 。 进 入 预 提 交 状 态 必 须 执行 如 下 步 
又 : 

a) 执行 为 保证 了 的 局 部 成 分 再 没有 必要 中 止 而 必需 的 所 有 步骤 ， 使 即便 该 结 点 上 发 生 故 障 
然后 又 恢复 的 情况 下 此 事务 成 分 也 不 需 中 止 。 因 此 ， 不 仅 与 局 部 了 相关 的 所 有 动作 都 必须 执行 ， 
还 需要 执行 与 日 志 相 关 的 适当 动作 ， 以 保证 恢复 时 了 将 被 重 做 而 不 是 被 撤销 。 所 需 动作 依赖 于 日 
志方 式 ， 但 显然 与 局 部 了 动作 相关 的 日 志 记录 必须 刷新 到 磁盘 上 。 

b) 在 局 部 日 志 中 放 和 人 记录 < Ready T> 并 将 日 志 刷 新 到 磁盘 。 

c) 向 协调 器 发 送 ready 了 消息 。 

但 是 ， 该 结 点 在 这 时 并 未 提交 其 上 的 了 成 分 ; 它 Preparem O 
必须 等 待 第 二 个 阶段 。 

5. 如 果 情况 正好 相反 ， 结 点 希望 中 止 其 7 了 成分， (人 CT ant commit 
那么 它 记载 日 志 记录 < Don't commit 7 > 并 向 协调 器 发 a 
送 消息 dont commit 7。 这 时 中 止 事务 成 分 是 安全 的 ， 
因为 即使 只 有 一 个 结 点 希望 中 止 ， 事 务 了 也 肯定 会 
中 止 。 

图 9-12 概括 了 第 一 阶段 中 的 消息 。 

Bre tl 

第 二 阶段 从 协调 器 收 到 来 自 各 结 点 的 ready 或 don’t commit 响应 开始 。 然 而 ， 有 可 能 某 些 结 点 
不 能 进行 响应 ; 这 样 的 结 点 可 能 是 停机 了 ， 也 可 能 已 经 与 网 络 断 开 连 接 。 在 这 种 情况 下 ， 协 调 器 
会 在 某 个 合适 的 超时 期 间 后 将 这 样 的 结 点 视 为 发 送 了 dort commit 来 处 理 。 

1. 如 果 协 调 器 从 7 的 所 有 成 分 接收 到 的 都 是 ready T7， 那 么 它 就 决定 提交 7。 协 调 器 在 其 结 
点 中 记载 < Commit T> 日 志 记 录 ， 并 且 向 参与 了 的 所 有 结 点 发 送 commit 了 消息 。 

2. 如 果 协 调 器 收 到 来 自 一 个 或 多 个 结 点 的 don’t commit 7 了 消息， 那么 它 在 其 结 点 中 记录 < A- 
bort T> 日 志 记录 ， 并 且 向 参与 了 的 所 有 结 点 发 送 abort 了 消息 。 

3. 如 果 结 点 收 到 commit 7 消息 ， 该 结 点 将 提交 其 上 的 了 成 commit 或 
分 ， 并 在 此 过 程 中 记录 日 志 <Commit T>, abort r O 

4. 如 果 结 点 收 到 abort 7 消息， 该 结 点 将 中 止 了 并 写 信 日志 ~ si 


记录 <Abort 了 > 。 
图 9-13 概括 了 第 二 阶段 中 的 消息 。 wma 


9.5.3 分 布 式 事务 的 恢复 — 

EMEGE ABH AU LET OR, SACD see ica, PU RIE AAE 
我 们 需要 保证 在 该 故障 结 点 恢复 时 发 生 的 一 切 都 和 分 布 式 事务 
7 的 全 局 决定 一 致 。 根 据 了 最 后 一 个 日 志 项 不 同 ， 有 几 种 情况 需要 考虑 ; 

1. 如 果 了 的 最 后 一 个 日 志 记 录 是 < Commit 7> ， 那 么 协调 器 必然 已 经 提交 了。 根据 所 使 用 的 
日 志方 式 ， 在 恢复 结 点 上 可 能 需要 重 做 该 结 点 上 的 了 成 分 。 

2. 如 果 最 后 一 个 日 志 记 录 是 < Abort 7> ， 那 么 类 做 地， 我 们 知道 全 局 的 决定 是 中 止 7。 根 据 
所 使 用 的 日 志方 式 ， 在 恢复 结 点 上 可 能 需要 撤销 该 结 点 上 的 了 成 分 。 

3. 如 果 最 后 一 个 日 志 记 录 是 < Dont comit 7 > ， 那 么 该 结 点 知道 全 局 的 决定 必然 是 中 止 7。7 
对 局 部 数据 库 的 影响 可 能 需要 搬 销 。 


图 9-12 两 阶段 提交 的 第 一 阶段 中 的 消息 
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4. 比较 难 的 情况 是 了 的 最 后 一 个 日 志 记录 是 < Ready 了 > 。 现 在 ， 正 在 人 恢复 的 结 点 并 不 知道 
全 局 的 决定 是 提交 7 还 是 中 止 7r。 该 结 点 必须 和 至 少 一 个 其 他 的 结 点 交流 ， 以 找 出 关于 了 的 全 局 
决定 。 如 果 协 调 器 在 工作 ， 那 么 该 结 点 可 以 询问 协调 器 。 如 果 这 时 协调 器 未 工作 ， 那 么 可 以 要 求 
其 他 的 某 个 结 点 查看 日 志 以 找 出 了 的 结局 。 在 最 坏 的 情况 下 ， 恢 复 结 点 与 其 他 所 有 结 点 都 联系 不 
上 ， 这 时 局 部 的 了 成 分 必须 保持 活跃， 直到 确定 关于 了 的 决定 是 提交 还 是 中 止 。 

5. 局 部 日 志 中 也 可 能 没有 关于 了 在 两 阶段 提交 协议 中 的 动作 的 记录 。 如 果 这 样 ， 那 么 恢复 
结 点 可 以 单方 面 的 决定 中 止 其 了 成分， 这 和 所 有 日 志方 式 都 是 一 致 的 。 有 可 能 协调 器 已 经 检测 到 
该 故障 结 点 超时 并 决定 中 止 T7。 如 果 故 障 持续 时 间 很 敌 ， 那 么 7 了 在 别 的 结 点 上 仍 可 能 是 活跃 的 ; 
但 是 ， 如 果 恢 复 结 点 决定 中 止 其 了 成 分 ， 并 稍 后 在 第 一 阶段 中 被 询问 时 用 dont commit 7 回答 ， 
不 一 致 的 情况 肯定 不 会 发 生 。 

上 面 的 分 析 中 假设 故障 结 点 不 是 协调 器 。 如 果 协 调 器 在 两 阶段 提交 中 发 生 故 障 ， 就 会 产生 
一 些 新 的 问题 。 首 先 ， 余 留 的 参与 结 点 要 么 等 待 协 调 器 恢复 ， 要 么 选举 一 个 新 的 协调 器 。 由 于 原 
协调 器 可 能 无 限期 地 停止 工作 ， 最 好 选举 一 个 新 的 领导 ， 至 少 在 等 待 一 个 较 短 的 时 间 看 协调 器 
能 否 恢复 后 应 重新 选举 。 

领导 选举 这 个 问题 本 身 就 是 分 布 式 系统 中 一 个 极其 复杂 的 问题 ， 不 在 这 本 书 所 要 讨论 的 范 
围 内 。 然 而 ， 有 一 种 简单 的 方法 在 大 多 数 情 况 下 都 可 以 使 用 。 例 如 ， 我 们 可 以 假设 所 有 参与 结 点 
都 有 用 作 唯一 标识 的 编号 ;例如 P 地 址 。 所 有 参与 者 都 向 其 他 结 点 发 送 消息 ， 宣 称 自己 可 以 作 
为 领导 ， 并 给 出 自己 的 标识 编号 。 在 一 段 适当 的 时 间 后 ， 所 有 参与 者 都 将 自己 所 听 到 的 编号 最 低 
的 结 点 作为 新 的 协调 器 ， 并 且 将 关于 这 一 结果 的 消息 发 送 给 其 他 的 所 有 结 点 。 如 果 所 有 结 点 接 
收 到 一 致 的 消息 ， 那 么 新 协调 器 就 有 了 唯一 的 选择 ， 并 且 每 个 结 点 都 知道 这 个 结 点 是 哪个 。 如 果 
有 不 一 致 ， 或 者 某 个 余 留 的 结 点 未 做 出 回答 ， 这 也 会 被 所 有 结 点 知道 ， 而 选举 再 次 开始 。 

现在 ， 新 的 领导 询问 各 个 结 点 关于 每 个 分 布 式 事务 了 的 信息 。 如 果 在 结 点 的 日 志 中 有 关于 了 
的 记录 ， 那 么 结 点 就 报告 其 中 的 最 后 一 条 。 可 能 出 现 的 情况 有 : | 

1. 某 个 结 点 的 日 志 中 有 < Commit 7 > 记录 ， 那 么 原 协调 器 必然 已 经 试图 向 所 有 结 点 发 送 
commit 了 消息 ， 因 而 将 T 提交 是 安全 的 。 

2. 类 似 地 ， 如 果 某 个 结 点 的 日 志 中 有 < Abort T> 记录 ， 那 么 原 协调 器 必然 已 经 决定 中 止 7， 
因而 新 协调 器 下 令 中 止 了 是 安全 的 。 

3. 假设 现在 所 有 结 点 上 都 没有 < Commit T > 或 < Abort T> 记录 ， 但 至 少 一 个 结 点 的 日 志 中 
没有 < Ready 7> 。 那 么 ， 由 于 记录 日 志 发 生 在 发 送 对 应 消息 之 前 ， 我 们 知道 原 协 调 器 不 可 能 已 
收 到 这 一 结 点 的 ready 7 消息， 因而 不 可 能 已 经 决定 提交 7。 对 新 协调 器 来 说 ， 决 定 中 止 了 是 安 
全 的 。 

4. 最 容易 出 问题 的 情况 是 找 不 到 < Commit T > 和 < Abort 7 > ， 但 每 个 余 留 的 结 点 上 都 有 < 
Ready T> 时 。 现 在， 我 们 不 能 确定 原 协 调 器 是 否 已 发 现 中 止 或 不 中 止 了 的 原因 ; 例如 ， 它 可 能 
由 于 自身 所 在 结 点 上 的 动作 而 决定 中 止 7， 也 可 能 由 于 接收 到 另 一 故障 结 点 的 dont commit T 消 
息 而 决定 中 止 7。 原 协调 器 也 有 可 能 已 经 决定 提交 了 并 已 经 提交 其 局 部 的 了 成 分 。 因 此 ， 新 协调 
器 不 能 决定 是 提交 了 还 是 中 止 7， 而 必须 等 待 原 协调 器 恢复 。 在 实际 的 系统 中 ， 数 据 库 管 理 员 可 
以 对 此 进行 干涉 并 手工 强制 所 有 等 待 中 的 事务 成 分 完成 。 其 结果 是 可 能 破坏 原子 性 ， 但 执行 被 
阻塞 事务 的 人 将 得 到 通知 ， 可 以 采取 一 些 适当 的 补救 措施 。 


9.5.4 习题 
! 习题 9. 5. 1 考虑 在 家 中 的 计算 机 上 发 起 的 一 个 事务 7， 该 事务 请 求 银行 将 B 银行 某 个 账户 中 的 10 000 元 转 
人 “银行 中 的 另 一 账户 。 
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a) 分 布 式 事务 了 的 成 分 有 哪些 ? 位 于 B 和 5C 的 事务 成 分 各 需要 做 什么 ? 

b) 如果 B 的 账户 中 没有 10 000 元 ， 那 么 会 出 现 什么 错误 ? 

c) 如 果 一 个 或 两 个 银行 的 计算 机 裔 溃 或 者 网 络 断 连 ， 那 么 会 发 生 什么 错误 ? 

9) 如 果 (e) 中 提出 的 问题 有 一 个 发 生 了 ， 那 么 在 计算 机 和 网 络 正 常 工 作 后 事务 怎样 正确 地 继续 下 去 ? 
习题 9. 5. 2 在 这 一 习题 中 ， 我 们 需要 一 种 描述 两 阶段 提交 中 可 能 发 生 的 消息 序列 的 记 法 。 设 (i,j，M) 表 

示 结 点 i 向 结 点 j 发送 消 息 KK， 其 中 1 的 值 及 其 含义 可 以 是 P( 预 提交 ) 、R( 准备 好 提交 ) 、D( 不 要 提交 )、 

C( 提 交 ) 和 4( 中 止 ) 。 我 们 将 讨论 一 种 简单 的 情形 ， 其 中 结 点 0 是 协调 器 ， 但 除 此 外 它 不 再 担任 事务 中 的 

任何 工作 ; 结 点 1 和 结 点 2 是 事务 成 分 。 例 如 ,下面 是 在 事务 成 功 提交 过 程 中 可 能 发 生 的 消息 序列 : 

(0, 1, P), (0, 2, P), (2, 0, R), (1, 0, R), (0, 2, C), (0, 1, C) 

a) 举 出 结 点 1 希望 提交 而 结 点 2 希望 中 止 时 可 能 发 生 的 消息 序列 的 一 个 例子 。 

1b) 如 果 事 务 成 功 提交 ， 像 上 面 这 样 可 能 发 生 的 消息 序列 有 和 多少? 

!c) 假 设 不 发 生 故 障 ， 如 果 结 点 1 希望 提交 而 结 点 2 不 希望 ， 那 么 有 多 少 可 能 的 消息 序列 ? 

!19) 如 果 结 点 1 希望 提交 ， 但 结 点 2 停止 工作 且 没 有 对 消息 做 出 响应 ,那么 有 多 少 可 能 的 消息 序列 ? 
习题 9. 5.3 使 用 习题 9.5.2 中 的 记 法 ,假设 结 点 包括 一 个 协调 器 和 男 外 n 个 作为 事务 成 分 的 结 点 。 作 为 n 

的 函数 ， 事 务 成 功 提交 时 可 能 的 消息 序列 有 多 少 ? 


9.6 分 布 式 封锁 


在 这 一 节 中 ， 我 们 将 讨论 如 何 把 封锁 调度 器 扩展 到 一 种 环境 中 ， 在 此 事务 是 分 布 的 且 由 若 
干 结 点 上 的 成 分 构成 。 我 们 假设 锁 表 由 各 个 结 点 管理 ， 并 且 各 个 结 点 上 的 事务 成 分 只 能 申请 该 
结 点 中 数据 元 素 上 的 锁 。 

当 数 据 被 复制 时 ， 我 们 必须 设法 使 每 个 事务 对 同一 元 素 X 的 所 有 副本 的 改变 以 同样 的 方式 
进行 。 这 一 要 求 引 和 人 了 封锁 远 辑 数据 库 元 素 站 与 封锁 下 的 一 个 或 多 个 副本 的 差别 。 在 这 一 节 中 ， 
我 们 将 提供 一 种 适用 于 有 副本 数据 和 无 副本 数据 的 分 布 式 封 锁 算法 代价 模型 。 但 是 ， 在 介绍 这 
一 模型 前 ， 我 们 先 考虑 解决 分 布 式 数据 库 中 锁 的 维护 问题 的 一 个 显而易见 的 ( 且 有 时 能 解决 问题 
的 ) 方 法 一 一 集中 封锁 。 


9. 6.1 集中 封锁 系统 

最 简单 的 方法 可 能 是 指定 一 个 封锁 结 点 来 维护 一 张罗 辑 元 素 的 锁 表 ， 而 不 管 这 些 元 素 在 该 
结 点 上 是 否 有 副本 。 当 事务 希望 获得 逻辑 元 素 上 的 锁 时 ， 它 向 该 封锁 结 点 发 送 一 个 请 求 ， 而 该 结 
点 根据 实际 情况 授予 或 拒绝 。 由 于 获得 关上 的 全 局 锁 等 同 于 在 该 封锁 结 点 获得 XX 上 的 局 部 锁 ， 
因此 只 要 该 封锁 结 点 按照 传统 的 方式 来 管理 锁 ， 我 们 就 可 以 保证 全 局 封锁 行为 的 正确 性 。 除 了 
事务 恰好 在 封锁 阶段 上 运行 外 ， 一 般 情况 下 每 个 锁 的 开销 为 三 次 消息 传递 (请 求 、 授 予 、 释 放 )。 

在 某 些 情况 下 使 用 单一 封锁 结 点 就 足够 了 ， 但 如 果 结 点 和 并 发 事务 很 多 ， 那么 封锁 结 点 
可 能 成 为 瓶颈 。 此 外 ， 如 果 封 锁 结 点 崩溃 ， 其 他 任何 结 点 都 不 能 获得 锁 。 由 于 集中 封锁 存在 
这 些 问 题 ， 维 护 分 布 式 封锁 可 以 用 一 些 别 的 方法 ， 我 们 将 在 讨论 如 何 估计 封锁 代价 之 后 介绍 
这 些 方 法 。 


9.6.2 分 布 式 封锁 算法 的 代价 模型 

假设 每 个 数据 元 素 正 好 在 一 个 结 点 上 存在 ( 即 不 进行 数据 复制 ) ， 并 且 每 个 结 点 上 的 封锁 管 
理 器 存储 该 结 点 上 的 锁 和 锁 请 求 。 事 务 可 以 是 分 布 式 的 ， 一 个 事务 可 能 由 一 个 或 多 个 结 点 上 的 
成 分 组 成 。 

尽管 与 封锁 管理 相关 的 代价 是 多 方面 的 ， 但 其 中 有 很 多 都 是 固定 的 ， 与 事务 在 网 络 上 请 求 
封锁 的 方式 无 关 。 我 们 能 够 控制 的 一 个 代价 因素 是 事务 获得 和 释放 锁 时 结 点 之 间 传 送 的 消息 数 。 
因此 ， 我 们 将 在 假设 所 有 封锁 请 求 都 被 同意 的 前 提 下 计算 各 种 封锁 模式 需要 的 消息 数 。 当 然 ， 封 
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锁 请 求 可 能 被 拒绝 ， 这 将 导致 拒绝 请 求 的 一 条 额外 消息 以 及 后 来 授予 锁 时 的 一 条 消息 。 但 是 ， 由 
于 我 们 不 能 预知 拒绝 封锁 的 频率 ， 并 且 这 一 频率 不 是 我 们 所 能 控制 的 东西 ， 所 以 在 我 们 的 比较 
中 将 忽略 这 一 额外 的 消息 需求 。 

例 9. 16 正如 我 们 在 9. 6. 1 节 提 到 的 那样 ， 在 集中 封锁 方式 下 ， 一 般 的 封锁 请 求 需 要 三 条 
消息 ， 一 条 消息 请 求 锁 ， 一 条 来 自 中 央 结 点 的 消息 授予 锁 ， 而 第 三 条 消息 释放 锁 。 例 外 的 情 
况 是 : 

1， 当 请 求 封锁 的 结 点 就 是 中 央 封 锁 结 点 时 ， 这 些 消息 是 不 必要 的 。 

2. 当 最 初 的 封锁 不 能 被 同意 时 需要 发 送 额外 的 消息 。 

但 是 ， 我 们 假设 这 两 种 情况 都 较 少 见 ; 即 大 多 数 封锁 请 求 来 自 中 央 封 锁 结 点 以 外 的 结 点 ， 并 且 大 
多 数 封锁 请 求 都 能 被 授予 。 因 此 ， 在 中 央 封 锁 方 式 下 ， 每 个 锁 需 要 三 条 消息 是 一 个 比较 好 的 估 
计 。 口 

现在 考虑 一 种 比 集中 封锁 更 灵活 的 情况 ， 没 有 副本 ,但 是 每 个 数据 库 元 素 X 在 自己 的 结 
点 上 维护 自己 的 锁 。 由 于 希望 封锁 下 的 事务 在 于 所 在 结 点 上 将 有 成 分 ， 看 起 来 似乎 不 需要 在 
结 点 之 间 传 输 消息 。 然 而 ， 如 果 分 布 式 事务 需要 多 个 元 素 上 的 锁 ， HX, YZ, PARK 
只 有 在 这 三 个 元 素 上 的 锁 都 获得 后 才能 完成 。 如 果 X、Y 和 2Z 位 于 不 同 结 点 上 ， 屠 么 这 些 结 点 

上 的 事务 成 分 至 少 需要 交换 同步 消息 以 防止 事务 在 它 得 到 所 有 需要 的 锁 之 前 执行 。 
我 们 并 不 打算 讨论 所 有 可 能 的 变 体 ， 而 只 讨论 事务 搜集 锁 的 一 种 简单 模型 。 我 们 假设 每 
个 事务 的 一 个 成 分 ， 即 那个 事务 的 封锁 协调 器 负责 搜集 所 有 事务 成 分 需要 的 所 有 锁 。 封 锁 协 
调 器 封锁 自己 所 在 结 点 上 的 元 素 不 需 消 息 ,但 封锁 其 他 任何 结 点 上 的 元 素 站 需要 以 下 三 条 
消息 : 

1. 发 向 也 所 在 结 点 以 请 求 封锁 的 消息 。 

2. 授予 锁 的 回答 消息 (回忆 一 下 ， 我 们 假设 所 有 锁 都 立即 被 授予 ， 否则 需要 一 条 拒绝 消息 以 
及 稍 后 的 一 条 授予 消息 ) 。 

3. 发 向 天 所 在 结 点 以 释放 锁 的 消息 。 

如 果 我 们 挑选 事务 需要 的 锁 最 多 的 结 点 作为 封锁 协调 器 ， 那 么 我 们 就 能 使 对 消息 的 需求 极 
小 化 。 所 和 需 消息 数 是 其 他 结 点 上 数据 库 元 素 的 三 倍 。 


9. 6.3 封锁 多 副本 的 元 素 

当 数据 库 元 素 工 在 多 个 结 点 上 有 副本 时 ， 我 们 必须 小 心 处 理 下 的 封锁 。 

例 9. 17 假设 数据 库 元 素 式 有 两 个 副本 即 X, 和 X,， 并 假设 事务 7 在 X, 所 在 结 点 上 获得 了 
X, 上 的 共享 锁 ， 而 事务 UE X, 所 在 结 点 上 获得 了 X, 上 的 排他 锁 。 现 在 ， 忆 可 以 修改 X,, 但 不 
能 修改 和 ， 这 导致 元 素 的 两 个 副本 变 得 不 同 。 此 外 ,由 于 了 和 忆 还 可 能 封锁 其 他 元 素 ， 这 两 
个 事务 读 写 X 的 顺序 不 受 它们 在 X 的 副本 上 的 锁 约束 ， 因 此 7 了 和 UU 还 可 能 产生 不 可 串 行 化 的 行 
为 。 口 

例 9. 17 说 明 的 问题 是 ， 当 数据 被 复制 时 ,我 们 必须 区 分 在 逻辑 元 素 习 上 获得 共享 锁 或 排他 
锁 与 获得 蕊 副本 的 局 部 锁 。 也 就 是 说 ， 为 了 保证 可 串 行 性 ,我 们 要 求 事务 获得 逻辑 元 素 上 的 全 
局 锁 。 但 是 ， 逻 辑 元 素 在 物理 上 并 不 存在 (只 有 其 副本 存在 ) ， 并 且 没 有 全 局 的 锁 表 。 因 此 ， 事 
务 获 得 下 上 的 全 局 锁 的 唯一 办 法 是 ， 事 务 在 各 的 一 个 或 多 个 副本 所 在 结 点 上 获得 这 些 副本 的 局 
部 锁 。 我 们 现在 考虑 将 局 部 锁 转变 为 具有 所 需 性 质 的 全 局 锁 的 方法 : 

。 一 个 逻辑 元 素 下 可 以 有 一 个 排他 锁 且 没有 共享 锁 ， 也 可 以 有 任意 个 共享 锁 且 没有 排他 锁 。 


9.6.4 主 副 本 封锁 
人 允许 复制 数据 的 集中 封锁 方式 的 一 种 改进 是 把 封锁 结 点 的 功能 分 散 ， 但 每 个 逻辑 元 素 的 封 
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锁 只 由 一 个 结 点 负责 这 一 原则 仍 保持 不 变 。 这 样 的 分 布 封锁 方式 称 为 主 副本 方式 。 这 一 改变 避 
免 了 中 央 封 镇 结 点 成 为 并 颈 的 可 能 性 ”但 保持 了 集中 针 锁 方式 的 简单 性。 

在 主 副本 封锁 方式 中 ， 每 个 逻辑 元 素 X 的 多 个 副本 中 有 一 个 被 指定 为 X 的 “ 主 副本 ”。 为 了 
获得 逻辑 元 素 了 上 的 锁 ， 事务 向 X 的 主 副本 所 在 结 点 发 送 一 个 请 求 。 主 副本 所 在 结 点 在 其 锁 表 
中 维护 关于 XX 的 一 项 ， 并 根据 实际 情况 同意 或 拒绝 这 一 请 求 。 和 前 面相 似 ， 只 要 每 个 结 点 正确 
管理 主 副本 的 封锁 ， 那 么 全 局 ( 逻辑) 封锁 就 能 得 到 正确 管理 。 

和 集中 封锁 结 点 类 似 的 男 一 个 地 方 是 ， 除 了 事务 与 主 副 本 位 于 同一 结 点 的 情况 外 ， 大 多 数 
封锁 请 求 产生 三 条 消息 。 但 是 ， 如 果 我 们 选择 主 副本 ， 那 么 我 们 可 以 认为 事务 和 主 副本 经 常 位 于 
同一 结 点 。 

例 9. 18 在 连锁 店 的 例子 中 ， 我 们 让 每 个 商店 存放 该 商店 销售 数据 的 主 副 本 ， 而 这 一 数据 
的 其 他 副本 (例如 ， 位 于 中 央 机 构 的 副本 或 数据 仓库 中 用 于 销售 分 析 的 副本 ) 都 不 是 主 副本 。 通 
常 的 事务 很 可 能 在 一 个 商店 执行 并 且 只 更 新 该 商店 的 销售 数据 。 这 类 事务 获得 锁 时 不 需要 消息 。 
只 有 在 事务 检查 或 修改 其 他 商店 的 数据 时 才 需 要 传送 与 封锁 相关 的 消息 。 口 


9.6.5 局 部 锁 构 成 的 全 局 锁 

另 一 种 方法 是 用 局 部 锁 的 集合 合成 全 局 锁 。 在 这 样 的 模式 中 ， 数 据 库 元 素 开 没有 “ 主 副本 ”; 
并 的 所 有 剖 本 是 对 称 的 ， 在 这 些 副本 中 的 任 一 个 上 都 可 以 申请 共享 锁 或 排他 锁 。 成 功 的 全 局 封锁 
模式 的 关键 在 于 ,事务 只 有 获得 了 一 定数 量 的 X 副 本 上 的 锁 后 才能 假设 自己 获得 了 X 上 的 全 
局 锁 。 

假设 数据 库 元 素 4 有 个 部 分 。 我 们 选择 两 个 数 : 

1.s 是 事务 获得 4 上 的 全 局 共享 锁 时 必须 以 共享 方式 封锁 的 A 的 副本 数 。 

2. x 是 事务 获得 4 上 的 排他 锁 时 必须 以 排他 方式 封锁 的 4 的 副本 数 。 

只 要 ?2x >n 且 *+x>zm， 我 们 就 能 获得 所 需 的 性 质 : 4 上 只 能 有 一 个 排他 锁 ，4 上 不 能 既 有 一 
个 排他 锁 又 有 一 个 共享 锁 。 解 释 如 下 。 由 于 2x >n， 如 果 两 个 事务 都 有 革 上 的 全 局 排他 锁 ， 那么 
至 少 有 一 个 副本 为 这 两 个 事务 授予 了 局 部 排他 锁 ( 因 为 所 授予 的 局 部 排他 锁 数 大 于 副本 数 ) 。 但 
是 如 果 这 样 的 话 ， 局 部 封锁 方式 就 是 错误 的 。 类 似 地 ， 由 于 s+x>n， 如 果 一 个 事务 在 4 LAS 
局 共享 锁 而 另 一 事务 在 4 上 有 全 局 排他 锁 ， 那么 必然 有 某 个 副本 同时 授予 了 局 部 共享 锁 和 排 
他 锁 。 

















分 布 式 死 锁 
在 事务 试图 获得 有 副本 的 数据 上 的 全 局 锁 时 ， 事 务 可 能 陷于 死 锁 ， 这 种 情况 很 多 。 构 造 
一 个 全 局 等 待 图 并 检测 死 锁 的 方法 也 很 多 。 但 是 ， 在 分 布 式 环境 中 ,使 用 超时 通常 更 简单 也 
更 有 效 。 所 有 在 某 个 适当 的 时 间 内 未 完成 的 事务 都 被 认为 是 已 经 死 锁 并 被 回 滚 。 


一 般 来 说 ， 获 得 全 局 共享 锁 需 要 的 消息 数量 3;， 获 得 全 局 排他 锁 需 要 的 消息 数 是 3x*。 与 集 
中 封锁 方式 平均 每 个 锁 需 要 3 条 甚至 更 少 的 消息 相 比 ， 这 个 数字 看 起 来 似乎 比较 大 。 但 是 ， 正 如 
下 面 两 个 针对 具体 (*，x) 选 择 的 例子 所 说 明 的 那样 ， 有 的 参数 能 起 补偿 作用 。 

读 封锁 一 个 ; 写 封 锁 所 有 

KH, ssl 且 x=n。 获 得 全 局 排他 锁 代 价 很 高 ， 但 全 局 共享 锁 至 多 需要 三 条 消息 。 此 外 ， 
这 一 方式 有 一 个 胜 过 主 副本 方式 的 地 方 : 尽管 后 者 允许 我 们 避免 读 主 副本 时 的 消息 ,“ 读 封锁 一 
个 "方式 则 只 要 事务 在 需要 读 的 数据 库 元 素 的 任 一 副本 所 在 结 点 上 就 能 够 避免 消息 。 因 此 ， 当 大 
多 数 事务 是 只 读 事务 ， 但 读 元 素 工 的 事务 在 不 同 结 点 上 发 起 时 ， 这 一 方式 比较 优越 。 一 个 例子 
是 ,分布 式 数字 图 书馆 在 文档 最 经 常 访问 的 地 方 缓冲 存储 相应 文档 的 副本 。 
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大 多 数 封 锁 

这 里 ，s =x=[ (n+1)/21。 看 起 来 似乎 不 管事 务 在 哪里 ， 这 一 系统 都 需要 大 量 的 消息 。 但 
是 ,下面 的 几 个 因素 使 这 一 模式 受到 欢迎 。 首 先 ， 许多 网 络 系统 支持 广播 ， 这 使 事务 可 以 发 出 请 
求 元 素 了 上 局 部 锁 的 一 条 总 的 消息 ， 而 这 条 消息 将 被 所 有 结 点 收 到 。 类 似 地 ， 锁 的 释放 也 可 以 
用 一 条 消息 来 实现 。 

此 外 ，s Fil 的 这 一 选择 能 提供 别 的 方式 所 不 能 提供 的 好 处 : 即使 在 网 络 断 连 的 情况 下 这 一 
方式 也 能 允许 部 分 的 操作 。 只 要 网 络 成 分 中 包含 等 的 大 多 数 副本 所 在 结 点 ， 事 务 就 有 可 能 获得 大 
上 的 锁 。 即 使 其 他 结 点 在 断 连 时 是 活跃 的 我 们 知道 它们 甚至 不 能 获得 了 上 的 共享 锁 ， 因 此 运 
行 在 不 同 网 络 成 分 中 的 事务 一 定 产生 可 串 行 化 的 行为 。 


9. 6.6 习题 

! 习题 9. 6. 1 ”我 们 给 出 了 如 何 用 局 部 的 共享 锁 和 排他 锁 分 别 创建 全 局 的 共享 锁 和 排他 锁 。 你 怎样 用 相应 类 型 
的 局 部 锁 创建 : 
a) 全 局 的 共享 锁 、 排 他 锁 以 及 增 量 锁 。 
b) 全 局 的 共享 锁 、 排 他 锁 以 及 更 新 锁 。 

Neo) 全 局 的 共享 锁 、 排 他 锁 以 及 每 种 类 型 的 意向 锁 。 

习题 9. 6.2 假设 有 5 个 结 点 ， 每 个 结 点 上 有 数据 库 元 素 X 的 一 个 副本 。 这 些 结 点 中 有 一 个 结 点 P 对 X 而 言 
占据 统治 地 位 ， 在 主 副本 分 布 封锁 系统 中 将 被 用 作 开 的 主 结 点 。 关 于 对 工 的 访问 的 统计 数据 为 : 
i, 所 有 访问 中 有 50% 是 PP 发 起 的 只 读 访 问 。 
ii, 其 他 4 个 结 点 各 发 起 10% 的 访问 ， 这 些 访问 都 是 只 读 的 。 
iii, LAR 10% 的 访问 需要 排他 的 访问 ,而 5 个 结 点 上 发 起 这 种 访问 的 概率 相等 ( 即 每 个 结 点 上 发 起 2% ) 。 
对 于 下 列 每 种 封锁 方式 ， 给 出 获得 一 个 锁 所 需要 的 平均 消息 数 。 假 设 所 有 请 求 都 被 同意 ， 因 而 不 需要 拒绝 
的 消息 。 
a) 主 副本 封锁 ， 并 设 主 副本 位 于 P。 
b) 读 封锁 一 个 ， 写 封锁 所 有 。 
c) 大 多 数 封锁 。 














网 格 计算 
网 格 计算 是 一 个 与 对 等 计算 意义 相同 的 术语 ， 然 而 网 格 的 应 用 经 常 涉 及 共享 计算 资源 而 
不 是 数据 ， 并 且 常 有 一 个 主 结 点 控制 其 他 结 点 的 作为 。 广 泛 的 示例 包括 试图 将 地 球 外 文明 征 
兆 的 信号 分 析 分 布 在 各 参与 结 点 上 的 SETI， 以 及 用 同样 的 方法 对 蛋白 质 螺旋 进行 分 析 的 Fold- 


ing-at-Home 。 











9.7 对 等 分 布 式 查找 


在 本 节 我 们 要 研究 对 等 分 布 式 系 统 。 当 这 些 系统 用 来 存储 和 传送 数据 的 时 候 ， 查 找 的 问题 
就 变 得 异常 困难 。 对 等 网 络 的 每 个 结 点 拥有 数据 的 一 个 子 集 ， 却 没有 一 个 集中 的 索引 告诉 我 们 
什么 地 方 有 什么 数据 。 被 称 作 “ 分 布 式 散 列 ” 的 方法 允许 对 等 网 络 的 增长 和 上 收缩， 同时 允许 我 们 
发 现 可 用 的 数据 ， 这 上 比 把 消息 发 送 给 每 个 结 点 的 方法 要 有 效 得 多 。 


9.7.1 对 等 网 络 

一 个 对 等 网 络 是 结 点 或 者 端 (参与 的 机 器 ) 的 集合 ， 并 且 : 

1. 是 自治 的 ， 参 与 者 考虑 任何 中 心 控 制 ， 可 以 随意 地 加 入 和 离开 网 络 。 

2. ERB, EMER Internet 这 样 的 通用 网 络 进行 通信 ， 并 不 像 并 行 机 器 上 的 处 理 
器 那样 硬 连 线 起 来 。 
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3. 在 功能 上 平等 ， 没 有 领袖 结 点 或 者 控制 结 点 。 

4. 互相 共享 资源 。 

对 等 网 络 起 初 有 一 个 不 好 的 和 名声， 因为 它 最 初 的 广泛 使 用 是 用 于 共享 如 音乐 这 样 有 版 权 的 
文件 。 然 而 ， 它 有 很 多 合法 的 应 用 。 例 如 ， 当 图 书馆 用 数字 图 片 来 代替 书 ， 世 界 上 所 有 的 图 书馆 
共享 它们 的 收藏 就 变 得 可 行 了 。 对 每 个 图 书馆 来 说 ， 就 不 再 需要 存储 世界 上 每 一 本 书 或 文档 的 
副本 了 。 但 同时 ， 当 你 从 当地 图 书馆 请 求 借阅 一 本 书 ， 该 图 书馆 的 结 点 需要 找到 一 个 能 提供 你 所 
需要 副本 的 对 等 图 书馆 。 

另 一 个 例子 ， 我 们 想象 一 个 能 够 共享 个 人 收集 的 图 片 和 视频 的 对 等 网 络 ， 也 就 是 一 个 Flicker 
或 者 YouTube 的 对 等 网 络 版 本 。 图 片 被 收藏 在 参与 者 的 个 人 计算 机 上 ， 它 们 会 被 周期 性 地 打开 和 
关闭 。 会 有 成 和 于 上 万 的 参与 者 ， 每 个 参与 者 拥有 整个 网 络 的 一 小 部 分 资源 。 


数字 图 书馆 的 版 权 问题 
为 了 使 一 个 分 布 式 的 世界 范围 的 数字 图 书馆 变 成 现实 ， 必 须 对 出 现 的 严重 的 版 权 问题 有 
一 些 解决 办 法 。 目 前 ， 这 种 网 络 的 小 规模 版 本 已 经 有 了 部 分 方案 ， 例 如 ， 在 线 的 高 校 图 书馆 
仅 允 许 来 自 本 学 校 范围 的 IP 地 址 访问 ACM 数字 图 书馆 。 另 外 一 种 解决 办 法 基于 这 样 的 思想 : 
一 次 只 允许 一 个 用 户 访问 一 个 特定 的 有 版 权 的 文档 。 一 个 数字 图 书馆 可 以 可 以 把 文档 的 版 权 
“ 借 给 " 另 一 个 图 书馆 ， 但 是 第 一 个 图 书馆 的 用 户 就 不 能 访问 文档 了 。 世 界 正 期 待 一 个 容易 实 
现 且 使 各 方 利益 公平 的 解决 办 法 。 

















9. 7.2 分 布 式 散 列 问题 

早期 的 对 等 网 络 ， 如 Napster， 用 一 个 集中 式 表 记录 数据 元 素 可 以 在 哪里 找到 。 此 后 的 系统 
通过 数据 复制 或 任务 分 割 ， 把 定位 数据 元 素 的 功能 分 布 在 各 个 端点 上 。 当 数据 库 确 实 很 大 的 时 
候 ， 例 如 一 个 共享 的 世界 范围 的 图 书馆 ， 或 一 个 共享 图 片 的 网 络 ， 没 有 别 的 选择 ， 只 能 以 某 种 方 
式 分 配 任务 。 

我 们 将 问题 抽象 为 在 一 个 (非常 大 的 ) 关 键 字 - 值 对 的 集合 中 查找 一 条 记录 ， 每 个 关键 字 天 
与 一 个 值 了 关联 。 例 如 , 天 可 能 是 一 篇 文档 的 标识 符 ，F 可 能 是 文档 本 身 或 是 那些 能 够 找到 这 篇 
文档 的 网 络 结 点 的 集合 。 

如 果 关 键 字 - 值 对 的 数据 量 比较 小 ， 有 史 个 简单 的 解决 方法 。 我 们 可 以 使 用 一 个 中 心 结 点 
保存 整个 包含 所 有 关键 字 - 值 对 的 表 ， 当 需要 一 个 与 给 定 关键 字 天 相关 联 的 值 了 的 时 候 ， 所 有 
结 点 都 会 去 查询 中 心 结 点 。 这 种 情况 下 ， 一 对 查询 - 答复 消息 可 回答 任何 结 点 的 查询 问题 。 或 
者 ， 我 们 还 可 以 把 整个 表 复 制 到 每 个 结 点 ， 这 样 就 根本 不 需要 任何 消息 了 。 

当 关 键 字 - 值 表 太 大 不 能 在 一 个 结 点 上 处 理 的 时 候 ， 问 题 就 变 得 更 加 有 趣 了 。 我 们 将 在 下 
列 限 制 条 件 下 考虑 这 个 问题 : 

1. 任何 时 候 ， 对 等 网 络 的 端 中 只 有 一 个 结 点 知道 与 任意 给 定 的 关键 字 天 对 应 的 值 。 

2. 这 些 关键 字 - 值 对 在 端 中 分 布 大 致 均匀 。 

3. 任何 结 点 都 可 以 向 网 络 中 的 端 询问 一 个 关键 字 天 所 关联 的 值 Y。 值 了 的 获取 方法 应 使 端 
之 间 传 送 消息 的 数量 比 端的 数量 的 增长 慢 得 多 。 

4. 每 个 结 点 所 需要 的 用 于 帮助 定位 关键 字 的 路 由 信息 的 数量 ， 必 须 比 结 点 的 数量 的 增长 慢 
得 多 。 

9. 7.3 分 布 式 散 列 的 集中 式 解决 方案 

如 果 网 络 上 的 参与 者 能 一 劳 永 逸 地 确定 下 来 ， 或 者 变化 得 很 慢 ， 那 么 就 有 直接 的 方法 实现 

关键 字 查 找 。 例 如 ， 我 们 可 以 用 一 个 散 列 函数 疡 把 关键 字 散 列 成 结 点 的 数字 序号 ， 将 关键 字 - 值 


BIG HGSDPARBF 287 








对 (KK，V) 置 于 序号 为 h(K) 的 结 点 上 。 

事实 上 ， 搜 索引 苟 能 有 效 地 维护 一 个 整个 网 站 的 中 心 索 引 ， 并 能 处 理 大 量 的 请 求 ， 它 们 在 行 
为 逻辑 上 就 像 有 一 个 中 心 索 引 ， 而 事实 上 索引 被 复制 到 大 量 的 结 点 上 。 每 个 结 点 由 许多 共享 网 
站 索引 的 机 器 一 起 组 成 。 

然而 ， 搜 索引 擎 中 的 机 器 并 不 是 真正 的 “ 端 " ， 它 们 不 能 决定 离开 网 络 ， 并 且 每 台 机 器 都 有 
特定 的 功能 要 完成 。 虽 然 机 器 会 出 现 故障 ， 但 只 是 简单 地 将 该 机 器 的 负载 转 由 由 相似 的 机 器 来 
承担 ， 直 到 故障 机 器 被 鞭 换 。 在 本 章节 的 其 余部 分 ， 我 们 将 要 考虑 当 数 据 由 一 组 真正 对 等 的 结 点 
维护 时 更 复杂 的 解决 方法 。 


9.7.4 Ra 

我 们 现在 将 描述 几 个 解决 分 布 式 散 列 的 可 能 算法 中 的 一 个 ， 这 个 算法 具备 的 理想 性 质 是 ， 
它 使 用 消息 的 个 数 是 端的 个 数 的 对 数 。 另 外 ， 除 关键 字 - 值 对 之 外 ， 每 个 结 点 上 需要 的 信息 的 数 
量 以 结 点 个 数 的 对 数 速率 增长 。 

在 这 个 算法 中 ， 我 们 将 端 组 织 在 一 个 “ 带 弦 的 圆 ” 
上 。 每 个 结 点 知道 它 在 圆 上 的 前 趋 和 后 继 ， 并 且 结 点 
与 那些 在 圆 上 位 于 指数 增长 距离 的 结 点 有 链接 (这 些 
链接 称 作 “ 弦 ”) 。 图 9-14 显示 了 带 弦 的 圆 的 样子 。 

为 了 将 一 个 结 点 放 在 圆 上 ， 我们 对 它 的 标识 i 进 
行 散 列 计算 ， 将 它 置 于 位 置 h(i) ， 此 后 我 们 就 用 Mo 
来 指 代 这 个 结 点 。 例 如 ， 在 图 9- 14 F, N 就 是 一 个 
它 的 标识 i BOVE AC) =21 的 结 点 。 每 个 结 点 的 后 
继 是 圆 上 顺 时 针 方 向 的 下 一 个 结 点 ， 例 如 ，mN2 的 后 继 
是 Ny, N, Æ NN; 的 后 继 。 同 理 ，N, 是 Ny ATES, Noo 
Æ N, 的 前 趋 。 

对 于 某 个 m 值 ， 可 以 使 用 一 个 能 够 将 关键 字 和 结 图 9-14 一 个 带 弦 的 圆 
点 标识 (例如 PP 地址 ) 都 映射 成 一 个 m 位 比特 的 数字 
的 散 列 函数 户 ， 将 结 点 置 于 圆 上 。 在 图 9-14 中 ,我们 假设 m=6， 所 以 圆 上 有 64 个 不 同 的 位 置 用 
于 放置 结 点 。 在 实际 的 应 用 中 ，m 会 大 得 多 。 

关键 字 - 值 对 也 是 用 散 列 函数 将 其 分 布 于 贺 上 。 若 (K,，V) 是 一 个 关键 字 - 值 对 ， 我 们 就 
计算 h(K) 并 将 (K,，V) 置 于 结 点 NN 上 ， 其 中 j 是 满足 条 件 h(K) <j 的 最 小 数字 。 作 为 一 种 特殊 情 
形 ， 若 h(K) 大 于 圆 中 结 点 的 最 大 数字 编号 ， 那 么 它 就 放 在 最 低 数字 编号 的 结 点 上 。 也 就 是 ， 关 
键 字 KK 应 秆 于 编号 为 h(K) 的 结 点 或 从 h(K) 开 始 顺 时 针 方向 的 第 一 个 结 点 。 

例 9. 19 在 图 9-14 中 ,任何 满足 条 件 42 <h(K) <48 的 (K,V) 对 都 会 被 存储 在 结 点 Ne Eo 
Æ h( K) #257, 58, =, 63, 0, 1 中 的 任意 一 个 ， 那么 (K，V) 会 被 置 于 结 点 N, Eo o 


9.7.5 带 弦 的 圆 上 的 链接 

圆 上 的 每 一 个 结 点 都 存储 着 与 它 的 后 继 和 前 趋 的 链接 。 例 如 ， 在 图 9-14 中 ，N 有 与 后 继 N, 
和 前 趋 Nj 的 链接 。 这 些 链接 足够 在 圆 上 传送 消息 来 查找 与 任何 关键 字 相 关 的 值 。 例 如 ， 结 点 N。 
APRS SKS KKK, BACK) =$54， 它 可 以 把 请 求 沿 着 圆 向 前 直到 发 现 一 个 满足 条 件 7 
54 的 结 点 N ， 在 图 9-14 中 就 是 结 点 Nieo 

然而 ， 如 果 圆 很 大 ， 线 性 查找 就 非常 低 效 。 为 了 加 快 查找 速度 ， 每 个 结 点 有 一 个 手指 表 ， 它 
给 出 在 圆 上 距离 本 结 点 2 的 某 乘 方 的 位 置 发 现 的 第 一 个 结 点 。 也 就 是 说 ， 若 散 列 画 数 产 产生 一 个 
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m RPS, BN, 在 它 的 手指 表 中 有 距离 为 1，2，4，8，.…，2” 的 入口 ， 人 口 2 是 我 们 
沿 着 圆 在 顺 时 针 方 向 上 走出 2 焉 离 遇 到 的 第 一 个 结 点 。 注 意 ， 一 些 人 口 可 能 是 相同 的 结 点 ， 并 
且 即 使 结 点 的 数量 可 能 多 达 2” 个 ,也 只 有 m -1 个 人 口 。 | 
ES 1 2 4 8 16 32 
结 点 Na Nu Nu Na Nz Naa 
图 9-15 M 的 手指 表 


例 9. 20 ”参考 图 9-14， 让 我 们 为 N 创建 手指 表 ， 如 图 9-15 所 示 。 对 于 距离 1， 我 们 询问 其 
编号 至 少 是 8 +1 =9 的 编号 最 小 结 点 ， 那 个 结 点 就 是 N, ， 因 为 没有 编号 是 9，10，...，13 的 结 
点 。 对 于 距离 2， 我们 需要 编号 至 少 是 8 +2 = 10 且 编 号 最 小 的 结 点 ， 结 果 仍 然 是 W,。 类 似 的 ， 
对 于 距离 4，Ni, 是 编号 至 少 是 8 +4 = 12 的 编号 最 小 的 结 点 。 

对 于 距离 8， 我 们 寻找 数字 编号 至 少 是 8 +8 = 
16 且 编 号 最 小 的 结 点 ， 现 在 N 太 小 ， 数 字 编号 至 少 
是 16 且 编 号 最 小 的 结 点 是 N,,， 手 指 表 中 距离 8 的 
入口 就 是 N,,。 对 于 距离 6， 我 们 需要 数字 编号 至 少 
是 24 的 结 点 ， 所 以 距离 16 MAREN, WF 
离 32， 我 们 需要 数字 编号 至 少 是 40 的 结 点 ， 所 以 适 
合 的 入 口 就 是 Ns,。 图 9-16 BART HEN, 的 手指 表 中 
的 4 个 链接 。 口 


9. 7.6 使 用 手指 表 查 找 

假如 我 们 在 结 点 N, 上 ， 并 且 我 们 想 查 找 关键 字 
- 值 对 (KX,，V)， 其 中 h(K) =j。 我 们 知道 如 果 ( 天 ， 
V) 存 在 的 话 ， 它 应 位 于 数字 编号 至 少 为 j 的 最 小 纺 图 9-16 N, 手指 表 中 的 链接 
号 结 点 上 。 我 们 可 以 使 用 手指 表 和 对 后 继 结 点 的 知识 找到 (K，V) ， 如 果 它 存在 的 话 ， 最 多 使 
用 m+1 个 消息 ，m 是 散 列 函数 h 产生 的 散 列 值 的 二 进 制 位 的 个 数 。 注 意 消息 不 一 定 按照 手 指 表 
的 入 口 进行 发 送 或 接收 ,手指 表 只 是 用 来 帮助 每 个 结 点 发 现 其 他 存在 的 结 点 。 

在 带 弦 的 圆 上 查找 。 

输入 LAAN, 发 起 初始 请 求 ， 查 询 与 关键 字 玉 关联 的 值 ， 其 中 h(K) =j。 

输出 ”不 同 结 点 发 送 的 一 系列 消息 ， 最 终 有 一 条 消息 发 送 给 结 点 N,， 信 息 中 要 么 包含 关键 
字 - 值 对 ( 开 ，Y) 中 的 值 Y， 要 么 是 一 个 该 关键 字 - 值 对 不 存在 的 表述 。 

方法 ”算法 的 步骤 实际 上 是 在 不 同 的 结 点 上 执行 的 。 任 何 时 候 ， 执 行动 作 是 在 某 个 “当前 ” 
SAN L, WNN 是 凡 。 下 面 的 步骤 1 和 步骤 2 重复 执行 。 注 意 Ni 是 每 一 个 请 求 消息 的 一 
部 分 ， 所 以 当前 结 点 总 是 知道 要 把 结果 发 送 给 结 点 N,。 

1. 如 果 c<j<s， 其 中 凡是 N. 在 圆 上 的 后 继 ， 那 么 就 结束 查找 。 然 后 ，N 发 送 一 个 信息 给 
N, 索要 (天 ，Y) ， 并 通知 N, 请 求 的 源头 是 N,。N, 会 把 一 个 带 着 值 了 或 者 ( 开 ，V) 不 存 的 消息 发 送 














2. EN, N 查阅 它 的 手指 表 找 到 小 于 了 的 最 大 编号 的 结 点 Wi。N. 向 NN; 发 送 一 条 消息 请 求 
它 代 表 N BRK, VON 就 成 为 当前 结 点 NW.， 步 骤 1 和 步骤 2 在 新 的 N. 下 重复 执行 。 





O 一 如 往常 ,“ 最 小 ”的 意义 必须 是 沿 着 圆 的 ， 沿 着 圆 顺 时 针 方 向 ， 在 达到 位 置 j 之 后 遇 到 的 第 一 个 结 点 。 
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例 9.22 假如 AN。 想 找 到 关键 字 K 的 值 V, 已 知 h(K) =54, AWN, 的 后 继 是 N,, ，54 不 在 
9，10，…，14 的 范围 中 ，Ns MEK, VEREN, Eo A, N 查阅 它 的 手指 表 发 现 所 有 的 人 
口 都 小 于 54， 于 是 它 选择 最 大 的 Wo ， 并 把 一 条 消息 发 送 给 Ne， 请 求 它 寻 找 关 键 字 玉 并 把 结果 
发 送 给 Ngo 

Ne 发 现 54 不 在 Ne 和 它 的 后 继 Na 之 间 的 序列 43，44，…，48 中 ， 因 此 ，N, 查阅 它 自 己 的 
手指 表 ， 如 下 : 


距离 1 2 4 8 16 32 
结 点 Nag Nag Ne N51 N Ma 





小 于 54 的 最 后 一 个 结 点 (在 圆 形 的 意义 上 ) 是 
Na, PTA Na 发 一 条 消息 给 Ns, FORE REN, 
查找 (K, VV)。 

Na 发 现 54 不 比 它 的 后 继 NAK, AECK, 
V) 存 在 的 话 ， 它 应 该 在 Noo Lo Na TH] Ns 发 送 一 个 
请 求 ，Nx 答 复 No。 图 9-17 中 显示 了 这 些 消息 的 
次 序 。 口 

通常 情况 下 ， 这 个 递归 算法 发 送 的 消息 不 
会 多 于 m 条 ， 原 因 是 每 当 一 个 结 点 N, 必须 查阅 
它 的 手指 表 的 时 候 ， 它 把 消息 发 送 给 的 结 点 与 
FAK, V 的 结 点 的 距离 不 会 超过 N. 与 持 有 
CK, V) 的 结 点 的 距离 ( 沿 着 圆 的 顺 时 针 方 向 测 


量 ) 的 一 半 。 在 所 有 情形 下 都 会 有 一 个 应 答 消 息 
被 发 送 。 图 9-17 在 寻找 (K， 廊 过 程 中 的 消息 序列 








处 理 散 列 冲突 
偶尔 地 ， 当 我 们 播 入 一 个 结 点 的 时 候 ， 其 标识 的 散 列 值 与 某 个 已 经 在 圆 上 的 结 点 的 标识 
的 获 列 值 相同 。 一 个 特定 结 点 的 实际 位 置 无 关 紧 要 ， 只 要 它 知 道 它 的 位 置 并 在 行动 中 将 这 个 
位 置 当 作 它 的 标识 的 散 列 值 就 可 以 了 。 因 此 ， 我 们 可 以 上 下 调整 新 结 点 的 位 置 ， 直 到 在 圆 上 
发 现 一 个 未 被 占用 的 位 置 。 











9.7.7 加 入 新 结 点 

假如 一 个 新 结 点 Ni( 也 就 是 它 的 标识 的 散 列 值 是 让 想 加 入 对 等 网 络 。 如 果 N, 不 知道 如 何 跟 
任何 一 个 端 通信 ， 那 么 N, 就 不 可 能 加 入 网 络 。 然 而 ， 若 N, 即使 知道 一 个 端 ，N, 就 可 以 向 这 个 端 
询问 圆 上 的 哪个 结 点 是 NN, 的 后 继 。 为 了 回答 这 个 问题 ， 该 已 知 端 运行 算法 9. 21 ， 就 像 它 在 寻找 
一 个 散 列 值 为 i 的 关键 字 ， 这 个 假设 的 关键 字 所 在 的 结 点 就 是 N, 的 后 继 。 假 设 N, 的 后 继 是 N,。 

我 们 需要 做 两 件 事 : 

1. 改变 前 趋 和 后 继 的 链接 ,使 NN, 正确 地 链接 到 圆 上 。 

2. 重新 组 织 数 据 ， 使 和 N, 获得 N, 上 那些 属于 NN, 的 数据 ， 也 就 是 那些 关键 字 的 散 列 值 是 i 或 小 
于 i 的 关键 字 - 值 对 。 

我 们 可 以 把 N 立刻 链接 到 圆 上 ， 尽 管 由 于 并 发 问题 很 难 正确 地 做 到 这 一 点 ， 也 就 是 多 个 后 
继 可 能 为 N, 的 结 点 都 会 立刻 把 自己 加 入 圆 。 为 了 避免 并 发 问题 ， 我 们 分 两 步 进行 ， 第 -一步 把 N 
的 后 继 设置 为 W ， 前 趋 设置 为 空 。 这 时 N 没有 数据 ， 它 的 手指 表 为 空 。 
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例 9. 23 假设 我 们 向 图 9-14 所 示 的 圆 加 和 一 个 结 点 Wxs ， 也 就 是 标识 的 散 列 值 为 26 的 结 点 。 
任何 与 Nj 联络 的 端 会 被 告知 Ns 的 后 继 是 
Na, Ni pC MRR EAN, MARE 
为 空 。 这 时 Na 的 前 趋 依然 是 N, ， 这 种 情 
形 如 图 9-18 所 示 。 图 中 ， 实 线 是 后 继 的 链 
接 ， 虚 线 是 前 趋 的 链接 。 口 

第 二 步 是 所 有 结 点 自动 完成 的 ， 不 是 
对 N, 揪 人 的 直接 回应 。 所 有 结 点 必须 定期 
地 运行 一 个 稳定 性 检测 ， 这 期 间 前 趋 和 后 
继 被 更 新 ， 并 且 如 果 需 要 的 话 ， 新 结 点 和 
它 的 后 继 之 间 要 分 配 数据 。 的 确 ， 图 9- 18 
中 的 Nj 会 运行 稳定 性 检测 使 N NER CRA, Na 也 需要 运行 稳定 性 检测 从 而 了 解 Nj 是 
它 的 新 后 继 。 注 意 ,并 没有 被 告知 Nj 的 存在 ， 并 且 在 稳定 性 检测 中 它 自 己 发 现 这 个 事实 以 前 都 
不 会 被 告知 。 任 何 结 点 N 上 的 稳定 性 检测 过 程 如 下 : 

1. 令 5 为 N 的 后 继 ,N 向 S 发 一 条 消息 询问 5 的 前 趋 P，5 了 予以 答复 。 在 正常 情况 下 , P= 
N， 如 果 成 立 ， 跳 到 步骤 44。 

2. 如 果 P 严格 位 于 入 和 5S 之 间 , 六 记录 下 已 是 它 的 后 继 。 

3. 令 5' 是 NN 的 当前 后 继 ，5' 可 能 是 5 或 者 P， 这 取决 于 步 又 2 的 判别 。 如 果 S 的 前 趋 是 空 或 
N 严格 位 于 S' 和 它 的 前 趋 之 间 ， 那 么 NN 就 给 5' 发 一 条 消息 ， 告 诉 5' 说 NN Re SHR, SEE 
的 前 趋 设置 成 NN。 

4. S' 把 它 的 某 些 数 据 分 配给 N， 也 就 是 5' 上 所 有 满足 h(K) <N 的 (K,，TV) 被 移送 给 N。 

例 9.24 继续 例 9.23 的 事件 ， 在 图 9-18 所 示 的 前 趋 和 后 继 链接 的 状态 下 ， 结 点 Nw 会 执行 
稳定 性 检测 。 在 这 个 稳定 性 检测 中 ,N= Nj，5=Nss，P=Na。 由 于 P 不 在 NN 和 5 Ziel, RR 
没有 做 改动 ， 因 此 在 步骤 3 中 S =S = NN;,。 因 为 N= Nj 严格 位 于 5S' = Ny 和 它 的 前 趋 Nl 之 间 ， 我 
们 将 Nj 作为 N;, 的 前 趋 ， 链 接 的 状态 如 图 9-19 所 示 。 在 步骤 4 中 ， 那 些 关 键 字 的 散 列 值 在 22 和 
26 之 间 的 所 有 关键 字 - 值 对 都 从 Ns 转 移 到 Nao 

圆 仍然 没有 稳定 ， 因 为 N,, 和 很 多 其 他 
结 点 还 不 知道 We ， 对 处 于 22 和 26 范围 内 
的 关键 字 查找 仍 会 最 终结 于 结 点 Na。 然 
而 ，N; 知 道 它 不 再 拥有 这 个 范围 内 的 关键 
字 ，N: 就 是 算法 9.21 中 的 N.， 只 是 根据 
算法 继续 查找 ， 这 实际 上 导致 再 一 次 绕 着 
圆 查找 ， 或 许 已 经 这 样 好 几 次 了 。 

AF, Na 执行 稳定 性 操作 ， 跟 其 他 结 
点 一 样 ， 它 也 是 周期 性 的 。 现 在 ，N = WN,,， 
S=Ny, P=Nyo BR 2 的 测试 条 件 满 足 。 
所 以 Nw 成 为 Ni 的 后 继 。 在 步骤 3，5' = Ns ， 因 为 Nj 的 前 趋 是 空 ， 我们 把 Na 作为 Nzx 的 前 趋 。 
在 步 又 4 没有 数据 可 以 分 配 ， 因 为 Ns 上 的 所 有 数据 都 属于 这 里 。 最 终 的 前 趋 和 后 继 链 接 状 态 如 
图 9-20 所 示 。 

这 时 , 对 于 22 到 26 范围 内 的 关键 字 的 查找 会 到 达 结 点 Ns 并 得 到 正确 的 回答 。 在 极 少 数 情 况 
下 ,许多 新 结 点 的 加 入 使 网 络 在 很 长 时 间 不 能 完全 稳定 。 这 种 情况 下 ， 对 于 范围 在 22 到 26 之 间 的 
关键 字 的 查找 会 持续 进行 ， 直 到 网 络 最 终 稳定 。 然 而 ,一 旦 网 络 的 确 稳定 了 ， 查 找 也 就 终止 了 。 口 





图 9-18 将 结 点 Ns 加 入 对 等 网 络 





图 9-19 将 Nj 作为 Na 的 前 趋 之 后 
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不 过 ， 还 有 更 多 事情 要 做 。 就 正在 讨论 的 例子 而 言 ，Ns 的 手指 表 需 要 创建 ， 而 且 其 他 手指 
表 目 前 可 能 是 错误 的 ， 因 为 某 些 情况 下 在 
应 该 指向 Ns 的 时 候 它们 指向 了 Ns,。 因 此， 
每 个 结 点 有 必要 周期 性 地 检查 它 的 手指 表 。 
对 于 每 一 个 ij =1，2，4，8，…， 结 点 W 必 
须 执 行 算法 9.21， 其 中 j= (N+i) mod 2”, 
当 算法 得 到 一 个 结 点 ， 该 结 点 是 网 络 认为 
散 列 值 为 /的 关键 字 所 在 的 位 置 ，N 就 将 手 
指 表 中 距离 ;的 入 口 设置 成 这 个 结 点 。 
注意 ， 一 个 新 的 结 点 ， 如 我 们 例子 中 Di 
的 Ns， 可 以 用 这 种 方法 创建 它 的 初始 手指 图 9-20 Na 运行 稳定 性 算法 之 后 的 链接 
表 ， 因 为 任何 人 口 都 要 求 该 信 口 所 对 应 的 结 点 已 经 被 创建 。 就 是 说 ， 距 离 1 的 人 口 总 是 后 继 ， 对 
于 距离 2i， 或 者 后 继 是 正确 的 人 口 ， 或 者 我 们 可 以 通过 访问 距离 i 的 手指 表 入 口 从 而 找到 正确 的 
Ae 


9.7.8 当 一 个 端 离开 网 络 

对 等 系统 的 一 个 中 心 原则 是 不 能 强迫 一 个 结 点 加 入 ， 因 此 一 个 结 点 可 以 随时 离开 圆 。 简 单 
的 情况 是 当 一 个 结 点 “礼貌 地 ”离开 ， 也 就 是 ， 和 其 他 结 点 合作 保证 它 持 有 的 数据 可 用 。 一 个 结 
点 要 礼貌 地 离开 ， 就 要 : 

1. 通知 它 的 后 继 和 前 趋 它 要 离开 了 ， 因 此 它们 可 以 成 为 彼此 的 前 趋 和 后 继 。 

2. 将 它 持 有 的 数据 转移 到 它 的 后 继 结 点 上 。 

网 络 仍 处 于 错误 的 状态 下 ， 尤 其 是 已 经 离开 的 结 点 还 出 现在 一 些 结 点 的 手指 表 里 。 这 些 结 
点 当 它们 如 9.7.7 节 讨 论 的 那样 进行 周期 性 的 手指 表 更 新 的 时 候 ， 或 者 当 它 们 试图 与 已 经 离开 的 
结 点 通信 的 时 候 就 会 发 现 错误 。 在 后 一 种 情况 下 ， 它 们 会 按照 周期 性 更 新 时 做 的 那样 重新 计算 
错误 的 手指 表 入 口 。 


9.7.9 当 一 个 端 崩溃 了 

当 一 个 结 点 出演 了 ， 被 关闭 了 ,或 者 没有 做 到 9.7. 8 节 中 提 到 的 那些 “礼貌 的 ”步骤 就 离开 
了 ， 更 困难 的 问题 就 出 现 了 。 如 果 数 据 没 有 被 复制 ， 那 么 骨 溃 结 点 上 的 数据 就 在 网 络 上 不 可 用 
了 。 为 了 避免 数据 的 完全 不 可 用 ， 我 们 可 以 把 数据 复制 到 几 个 结 点 上 。 例 如 ， 我 们 可 以 把 每 个 
(K, VIRE 3 MARE: 正确 的 结 点 ， 它 在 圆 上 的 前 趋 和 后 继 。 

一 个 结 点 离开 后 ， 为 了 重建 圆 ， 我 们 可 以 获得 的 每 个 结 点 的 记录 ,不 仅 包 括 它 的 前 趋 和 
后 继 ， 还 有 它 前 趋 的 前 趋 ， 后 继 的 后 继 。 一 个 可 选 的 方法 是 把 结 点 聚集 成 组 ，( 比方 说 )3 个 
一 组 或 更 多 。 一 个 聚 簇 中 的 结 点 复制 它们 彼此 的 数据 ， 并 且 在 某 个 结 点 离开 或 和 月 溃 后 它们 可 
以 互相 代替 对 方 。 当 一 个 聚 篮 变 得 太 大 ， 就 把 它 分 成 两 个 在 圆 上 邻近 的 聚焦 ， 使 用 的 算法 与 
9.7.7 节 描 述 的 结 点 插 人 算法 类 似 。 类 似 地 ， 变 得 太 小 的 聚焦 可 以 与 它 的 邻近 育 艇 合并， 过 程 
与 9.7. 8 节 中 结 点 礼貌 地 离开 类 似 。 插 入 一 个 新 结 点 的 操作 就 是 把 这 个 结 点 加 入 高 它 最 近 的 
FRR 0 


9.7.10 习题 


习题 9.7.1 如 图 9-14 给 出 的 圆 中 的 结 点 ， 若 关键 字 的 散 列 值 为 : a)35; b)20; c)60, 关键 字 - 值 对 应 在 
圆 上 什么 位 置 ? 
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习题 9. 7. 2 ”如 图 9-14 给 出 的 圆 中 的 结 点 ， 为 下 列 结 点 创建 手指 表 : a) Ni,; b) Mao 

习题 9. 7. 3 如 图 9-14 给 出 的 圆 中 的 结 点 ， 若 进行 如 下 操作 ， 发 送 的 消息 的 序列 是 什么 ? 
a) Na 寻找 散 列 值 为 27 的 关键 字 。 

b) Ns 寻找 散 列 值 为 5 的 关键 字 。 

©) Nss 寻 找 散 列 值 为 54 的 关键 字 。 

习题 9.7.4 如 图 9-14 给 出 的 圆 ， 当 增加 结 点 的 散 列 值 是 a) 16; b)45， 给 出 调整 前 趋 和 后 继 指 针 以 及 分 配 
数据 的 顺序 步骤 。 

! 习题 9. 7. 5 假如 我 们 想 要 防止 结 点 崩溃 ， 如 9.7.9 节 讨论 的 那样 ， 让 每 个 结 点 维护 它 的 前 趋 的 信息 、 后 继 
的 信息 以 及 它 的 前 趋 与 后 继 的 数据 ， 还 有 它 自 己 的 数据 。 你 会 怎样 修改 9.7.7 节 描 述 的 结 点 插入 算法 ? 


9.8 


小 结 


并 行 机 器 : 并 行 机 器 根据 其 特征 可 以 分 为 共享 内 存 、 共 享 硬盘 和 无 共享 3 类 。 对 于 数据 
库 应 用 来 说 ， 无 共享 结构 是 一 般 情 况 下 最 划算 的 。 

并 行 算法 : 关系 代数 的 操作 可 以 在 一 个 并 行 机 上 被 加 速 与 处 理 器 的 个 数 相近 的 倍数 。 优 
先 选择 算法 是 把 数据 通过 散 列 分 配 到 与 处 理 器 对 应 的 桶 中 ， 然 后 把 数据 传送 给 对 应 的 处 
理 器 。 这 样 处 理 器 就 在 它 本 地 的 数据 上 进行 运算 。 

map-reduce 架构 : 通常 ， 大 量 文 件 上 的 高 度 并 行 算法 可 以 表示 成 一 个 映射 函数 和 一 个 归 
约 函 数 。 作 用 于 文件 一 部 分 上 的 映射 进程 并 行 执行 ， 产生 关键 字 - 值 对 。 这 些 对 然后 被 
分 配 使 得 每 个 关键 字 的 对 能 够 被 一 个 归 约 进程 处 理 。 

分 布 式 数据 ;在 分 布 式 数 据 库 上 ， 数 据 可 以 被 水 平分 割 ( 一 个 关系 的 元 组 分 布 在 几 个 站 
点 ) 或 者 垂直 分 割 (一 个 关系 的 模式 被 分 解 成 几 个 位 于 不 同 站 点 的 关系 模式 ) 。 还 可 以 复 
制 数据 ， 因 此 一 个 关系 的 相同 的 副本 可 能 位 于 几 个 站 点 。 

TARER: 在 通信 开销 很 昂贵 的 环境 下 ， 半 连接 可 以 加 速 位 于 不 同 站 点 的 两 个 关系 的 
连接 。 我 们 将 一 个 关系 投影 到 连接 属性 上 ， 把 它 传送 给 另 一 个 站 点 ， 然 后 返回 第 二 个 关 
系 的 非 悬 挂 元 组 。 

完全 化 简 : 当 把 不 同 站 点 上 的 多 于 两 个 的 关系 进行 连接 时 ， 通 过半 连接 不 一 定 能 够 消除 
所 有 悬挂 元 组 ， 可 以 保证 把 无 论 多 么 大 的 关系 的 所 有 巧 挂 元 组 都 消除 的 一 个 有 限 的 半 连 
接 的 序列 ， 称 作 完 全 化 简 。 

超 图 : 几 个 关系 的 自然 连接 可 以 被 表示 成 一 个 超 图 ， 每 个 属性 名 是 一 个 结 点 ， 每 个 关系 
是 一 个 超 边 ， 它 包含 了 那个 关系 的 所 有 属性 的 结 点 。 

非 循环 超 图 : 通过 一 系列 的 耳 打 简化 可 以 被 简化 为 一 个 单一 超 边 的 超 图 就 是 非 循环 超 图 。 
耳朵 简化 就 是 超 边 的 消除 ， 这 些 超 边 中 的 所 有 结 点 或 者 不 在 任何 其 他 超 边 中 ， 或 者 在 一 
个 特殊 的 其 他 超 边 中 。 所 有 的 超 图 中 只 有 非 循环 超 图 才 有 完全 化 简 。 

分 布 式 事务 : 在 一 个 分 布 式 数据 库 中 ， 一 个 逻辑 事务 由 执行 在 不 同 站 点 的 成 分 构成 。 为 
了 保持 一 致 性 ， 这 些 成 分 必须 就 是 否 提交 或 者 中 止 逻辑 事务 达成 一 致 。 

两 阶段 提交 : 这 个 算法 使 事务 成 分 能 够 决定 是 否 提交 或 者 中 止 ， 甚 至 在 面 对 系 统 崩 省 时 
也 能 解决 。 在 第 一 阶段 ， 一 个 协调 器 成 分 对 成 分 是 否 提交 或 者 中 止 进 行 调查 。 在 第 二 阶 
段 ， 协 调 器 告诉 成 分 提交 当 且 仅 当 所 有 成 分 都 表达 了 提交 的 意愿 。 

分 布 式 锁 : 如 果 事 务必 须 对 在 几 个 站 点 的 数据 库 元 素 封锁 ， 必 须 找 到 一 个 办 法 协调 这 些 
锁 。 在 集中 封锁 方式 中 ， 一 个 站 点 维护 了 所 有 届 辑 元 素 的 锁 ， 在 主 副 本 封锁 方式 中 ， 一 - 
个 逻辑 元 素 的 主 站 点 维护 它 的 锁 。 

封锁 多 副本 的 数据 ; 当 数 据 库 元 素 在 多 个 站 点 被 复制 ， 这 个 元 素 的 全 局 锁 必 须 通 过 一 个 
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或 多 个 副本 的 锁 获 得 。 大 多 数 封锁 的 方式 要 求 从 大 多 数 副本 的 读 锁 或 者 写 锁 中 获得 一 个 
全 局 锁 。 另 一 个 方法 ,我 们 可 以 通过 只 获得 某 一 个 副本 上 的 读 锁 来 获得 一 个 全 局 读 锁 ， 
但 需要 获得 每 个 副本 上 的 写 锁 来 获得 一 个 全 局 写 锁 。 

对 等 网 络 ; 这 些 网 络 由 独立 的 、 自 治 的 、 发 挥 相同 作用 的 结 点 构成 ， 这 样 的 网 络 通常 用 
来 在 不 同 的 端 之 则 共享 数据 。 

分 布 式 散 列 : 在 对 等 网 络 中 分 布 式 散 列 是 一 个 核心 的 数据 库 问 题 。 我 们 把 关键 字 - 值 对 
的 集合 分 布 在 端 上 ， 我 们 必须 找到 与 一 个 关键 字 关联 的 值 而 不 用 给 所 有 的 或 大 部 分 的 端 
发 送信 息 ， 且 不 依靠 任何 包含 所 有 关键 字 - 值 对 的 端 。 

PRAA: 分 布 式 散 列 问题 的 一 种 解决 方法 是 ， 用 一 个 散 列 函 数 把 结 点 标识 和 关键 字 映 
射 到 一 个 m 比特 的 数值 ， 我 们 用 这 些 数值 构成 一 个 有 2” 个 位 置 的 圆 。 关 键 字 被 置 于 沿 顺 
时 针 方 向 其 位 置 距 关键 字 散 列 值 所 对 应 的 位 置 最 近 的 结 点 。 通 过 使 用 一 个 手指 表 ， 该 手 
指 表 给 出 圆 上 与 一 个 结 点 距离 为 1，2,，4，8，… 的 结 点 ， 关 键 字 查找 可 以 在 结 点 个 数 的 
对 数 的 时 间 内 完成 。 
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第 10 章 信息 集成 


信息 集成 是 利用 若干 数据 库 或 其 他 的 信息 来 源 ， 使 得 来 自 这 些 来 源 的 数据 协同 工作 ， 就 好 
像 它们 是 一 个 单一 的 数据 库 的 过 程 。 集 成 的 数据 库 可 能 是 物理 的 ( “仓库 ”) 或 虚拟 的 (“ mediator” 
或 “中 间 件 ” ， 即 使 不 是 物理 上 存在 也 可 以 被 查询 到 ) 。 来 源 可 能 是 常规 的 数据 库 或 者 其 他 的 信息 
类 型 ， 比 如 网 页 的 集合 。 

我 们 首先 探讨 表面 上 看 相似 的 数据 库 ， 会 以 哪些 方式 表现 出 很 难 正确 解决 的 冲突 。 解 决 方 
法 在 于 “包装 器 "的 设计 一 一 某 一 来 源 上 的 模式 与 数据 值 和 集成 的 数据 库 的 模式 与 数据 值 之 间 的 
翻译 器 。 

信息 集成 系统 需要 特别 的 查询 优化 技术 来 支持 它们 的 高 效 操作 。mediator 系统 可 以 被 分 为 两 
类 ;“global-as-view”( 集 成 数据 库 的 数据 根据 它 如 何 从 来 源 构 建 出 来 进行 定义 ) 和 “local-as-view” 
(来 源 的 内 容 根据 集成 数据 库 所 支持 的 模式 的 观点 来 定义 ) 。 我 们 考察 为 global-as-view 的 mediator 
所 做 的 基于 能 力 的 优化 。 我 们 也 考虑 local-as-view 的 mediator， 它 需要 努力 去 解决 如 何 从 已 定义 
的 视图 来 构造 出 对 查询 的 答案 的 问题 ， 但 它 在 操作 的 灵活 性 方面 具有 优势 。 

在 最 后 一 节 ， 我们 考察 信息 集成 方面 的 另 一 个 重要 问题 ， 称 为 “实体 解析 ”。 不 同 的 信息 来 
源 可 能 涉及 相同 的 实体 ( 比如， 人们) ， 但 是 包含 一 些 差 异 ， 比 如 拼 错 的 名 字 或 过 时 的 地 址 。 我 
们 需要 对 哪些 来 源 不 同 的 数据 元 素 实际 上 涉及 相同 的 实体 做 一 个 最 好 的 估计 。 


10.1 信息 集成 介绍 


在 这 一 节 ， 我 们 讨论 在 哪些 方面 信息 集成 对 于 许多 数据 库 应 用 是 必需 的 。 然 后 我 们 举 一 些 
使 得 信息 集成 变 得 困难 的 问题 的 例子 。 


10.1.1 为 什么 要 进行 信息 集成 

如 果 我 们 能 为 世界 上 所 有 的 数据 重新 开始 一 个 架构 和 模式 ， 并 且 可 以 把 那些 数据 放 在 一 个 
单一 的 数据 库 里 ， 那 就 不 需要 进行 信息 集成 了 。 然 而 ， 现 实 世 界 完 全 不 是 这 样 。 

。 数据 库 是 各 自 独 立地 创建 的 ， 即 使 它们 稍 后 需要 一 起 工作 。 

© 对 数据 库 的 使 用 会 发 展 ， 所 以 我 们 不 能 设计 一 个 数据 库 来 满足 未 来 所 有 可 能 的 用 途 。 

为 了 了 解 对 于 信息 集成 的 需求 ， 我 们 将 考虑 两 个 典型 的 场景 : 为 某 个 大 学 建立 应 用 和 集成 
职工 数据 库 。 在 两 种 场景 中 ， 都 有 一 个 关键 问题 ， 那 就 是 总 的 数据 管理 系统 必须 利用 遗留 数据 
源 ， 即 独立 于 所 有 其 他 数据 源 而 创建 的 数据 库 。 每 一 个 遗留 数据 源 被 应 用 所 使 用 ， 并 且 应 用 认为 
“它们 的 ”数据 库 的 结构 不 会 变化 ， 所 以 修改 遗留 数据 源 的 模式 或 数据 不 是 一 个 可 选 方法 。 

大 学 数据 库 

随 着 数据 库 得 到 普遍 的 使 用 ， 各 大 学 都 开始 使 用 它们 来 完成 一 些 以 前 用 手工 完成 的 功能 。 
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这 里 有 一 个 典型 的 场景 。 注 册 主 任 建 立 一 个 课程 数据 库 ， 并 用 它 来 记录 每 一 个 学 生 修 的 课程 和 
他 们 的 成 绩 。 利 用 这 个 数据 库 来 建立 应 用 ， 比 如 成 绩 单 生 成 器 。 

大 学 的 会 计 建立 另 一 个 数据 库 用 来 记录 学 生 的 学 费 付 款 情 况 。 人 力 资源 部 门 建立 一 个 数据 
库 用 来 记录 职工 信息 ， 包 括 那 些 从事 助 教 或 助 研 工作 的 学 生 。 应 用 包括 工资 支票 的 产生 ， 支 付 给 
政府 的 税 款 和 社会 安全 付款 的 计算 ， 以 及 其 他 很 多 方面 。 拨 款 办 公 室 建立 一 个 数据 库 用 来 了 解 
拨款 支出 ， 包 括 某 些 教员 、 学 生 和 职员 的 工资 。 它 可 能 也 包括 关于 生物 危害 的 信息 ， 人 类 题材 的 
使 用 ， 以 及 其 他 很 多 涉及 研究 项 目的 问题 。 

很 快 ， 该 大 学 意识 到 所 有 这 些 数 据 库 都 几乎 不 能 提供 它们 应 有 的 帮助 ， 而 且 有 的 时 候 反而 
会 妨碍 。 例 如 ， 假 定 我 们 要 确保 注册 主任 不 会 记录 会 计 说 没有 支付 学 费 的 学 生 的 成 绩 ， 就 必须 有 
人 从 会 计 的 数据 库 中 得 到 一 个 已 支付 学 费 的 学 生 列表 ， 并 把 它 与 从 注册 主任 的 数据 库 中 得 到 的 
学 生 列表 进行 比较 。 再 如 另 一 个 例子 ， 当 Sally 被 任命 为 拨款 号 为 123 的 科研 课题 的 助 研 ， 就 需 
要 有 人 告诉 拨款 委员 会 她 的 工资 应 该 从 课题 123 中 支付 ， 还 需要 有 人 告诉 人 力 资源 部 他 们 应 该 给 
她 支付 工资 。 而 且 两 个 数据 库 里 面 的 工资 最 好 精确 地 一 致 。 

所 在 在 某 个 时 刻 ， 该 大 学 决定 它 需 要 一 个 数据 库 来 满足 所 有 的 功能 。 起 初 的 思想 可 能 是 : 从 
涉 开始 。 建 立 一 个 数据 库 ， 它 包含 所 有 遗产 数据 库 的 所 有 信息 ， 并 且 重 写 所 有 的 应 用 以 使 用 新 的 
数据 库 。 这 种 方法 已 经 被 尝试 过 ， 结 果 付 出 了 巨大 的 惨痛 代价 。 除 了 支付 非常 昂贵 的 软件 架构 任 
务 之 外 ， 该 大 学 还 必须 同时 并 行 地 运行 旧 的 和 新 的 两 种 系统 很 长 时 间 ， 以 观察 是 否 新 的 系统 实 
际 上 能 正常 工作 。 并 且 当 他 们 转换 到 新 的 系统 时 ， 用 户 们 发 现 应 用 不 像 他 们 所 习惯 的 那样 工作 
了 ， 于 是 造成 了 混乱 的 结果 。 

一 个 更 好 的 方法 是 建立 一 个 抽象 层 ， 称 为 中 间 件 ， 在 所 有 的 遗产 数据 库 之 上 ， 并 且 允 许 遗 产 
数据 继续 为 它们 当前 的 应 用 服务 。 抽 象 层 可 以 是 关系 型 视图 一 一 虚拟 的 或 物化 的 。 然 后 ，SQL 可 
以 被 用 来 “查询 ”中 间 件 层 。 通 常 这 个 层 是 由 一 堆 类 所 定义 的 ， 并 且 用 一 种 面向 对 象 的 语言 来 查 
询 。 或 者 中 间 件 层 可 以 使 用 XML 文档 ， 它 们 用 XQuery 来 查询 。 我 们 在 《数据 库 系 统 基础 教程 ( 原 
书 第 3 版 )》9. 1 节 曾 提 到 这 个 中 间 件 可 能 是 在 3 层 架 构 中 的 应 用 层 的 一 个 重要 成 分 ， 虽 然 我 们 没 
有 明确 地 说 明 。 

一 旦 中 间 件 层 建立 了 ， 就 可 以 编写 新 的 应 用 来 访问 该 层 以 获得 数据 ， 同 时 遗产 应 用 使 用 遗产 数 
据 库 继续 和 运行。 例如， 我 们 可 以 写 一 个 新 的 应 用 ， 它 为 学 生 输 入 成 绩 当 且 仅 当 他 们 已 经 支付 了 他 们 
的 学 费 。 另 一 个 新 的 应 用 可 以 通过 从 用 户 得 到 助 研 的 姓名 、 课 题 号 和 工资 的 方式 来 任命 一 个 助 研 。 
这 个 应 用 然后 将 输入 姓名 和 工资 到 人 力 资源 数据 库 ， 输 入 姓名 、 工 资 和 课题 号 到 拨款 办 公 室 。 

集成 职工 数据 库 

Compaq 收购 了 DEC 和 Tandem， 然 后 Hewlett-Packard 收购 了 Compaq。 每 一 个 公司 有 一 个 职 
工 数 据 库 。 因 为 这 些 公司 以 前 是 独立 的 ， 所 以 它们 的 数据 库 的 模式 和 架构 自然 不 同 。 此 外 ， 每 一 
个 公司 实际 上 有 许多 关于 职工 的 数据 库 ， 而 且 这 些 数 据 库 很 可 能 在 一 些 基 本 的 问题 上 不 同 ， 如 
什么 样 的 人 算是 职工 。 例 如 ， 工 资 部 门 不 会 包括 退休 人 员 ， 但 是 可 能 包括 承包 商 。 福 利 部 将 包括 
退休 人 员 但 不 包括 承包 商 。 安 全 办 公 室 将 不 仅仅 包括 常规 的 职工 和 承包 商 ， 还 包括 运营 自助 餐 
厅 的 公司 的 职工 。 

因为 我 们 此 前 讨论 的 与 大 学 数据 库 有 关 的 原因 ， 关 闭 这 些 遗 留 数据 库 和 所 有 在 它们 上 面 运 
行 的 应 用 将 是 不 切实 际 的 。 然 而 ， 创 建 一 个 中 间 件 层 是 可 能 的 ， 它 (虚拟 地 或 物理 地 ) 保持 所 有 
的 对 每 一 个 职工 可 用 的 信息 。 


10.1.2 异 质 性 问题 
当 我 们 尝试 将 各 自 独立 开发 的 不 同 的 信息 源 结合 在 一 起 时 ,我们 总 是 发 现 这 些 信息 源 在 很 
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多 方面 不 同 ， 即 使 它们 被 试图 用 来 存储 相同 种 类 的 数据 。 这 些 信 息 源 被 称 为 异 质 的 ， 集 成 它们 的 
问题 就 被 称 为 异 质 性 问题 。 我 们 将 介绍 一 个 汽车 数据 库 的 运行 的 例子 ， 然 后 讨论 在 不 同 的 层 中 
异 质 使 得 集成 变 得 困难 的 例子 。 

例 10.1 Aardvark 汽车 公司 有 1000 个 经 销 商 ,每 一 个 经 销 商 维护 一 个 他 们 的 汽车 库存 的 数 
据 库 。Aardvark 想 要 创建 一 个 集成 的 数据 库 来 包含 所 有 的 1000 个 来 源 的 信息 。° 这 个 集成 数据 库 
将 帮助 经 销 商 找到 另 一 个 经 销 商 上 的 一 个 特定 的 型 号 ， 如 果 他 们 没有 库存 了 。 它 还 可 以 被 公司 
的 分 析 员 用 来 预测 市 场 ， 并 调整 产量 以 提供 最 有 可 能 被 销售 的 型 号 。 

然而 ， 经 销 商 们 的 数据 库 可 能 在 许多 方面 不 同 。 我 们 将 在 下 面 枚 举 最 重要 的 几 个 方面 ， 并 且 
根据 Aardvark 数据 库 给 出 几 个 例子 。 口 

通信 和 异 质 性 

今天 ， 用 驱动 网 络 的 HTTP 协议 来 访问 你 的 信息 是 很 普遍 的 。 然 而 ， 一 些 经 销 商 可 能 不 让 他 
们 的 数据 库 在 网 络 上 可 用 ,但 是 他 们 接受 远程 访问 ,例如 ， 通 过 远程 过 程 调用 或 匿名 FIP. 

查询 语言 异 质 性 

我 们 查询 或 修改 一 个 经 销 商 的 数据 库 的 方式 可 能 不 同 。 如 果 数 据 库 接受 SQL 查询 和 修改 将 
会 是 很 好 的 ， 但 并 不 是 所 有 的 数据 库 都 接受 。 对 于 那些 接受 的 ， 每 一 个 接受 一 种 SQL 的 方 
言 一 一 该 经 销 商 的 数据 库 管 理 系统 的 厂商 所 支持 的 版 本 。 另 一 个 经 销 商 可 能 根本 就 没有 一 个 关 
系数 据 库 ， 他 们 可 以 使 用 一 个 Excel 电子 数据 表 ， 或 一 个 面向 对 象 数 据 库 ， 或 一 个 使 用 XQuery 作 
为 语言 的 XML 数据 库 。 

模式 异 质 性 

即使 假定 所 有 的 代理 商都 使 用 一 个 支持 SQL 作为 查询 语言 的 关系 型 数据 库 管理 系统 ， 我 们 
还 能 发 许多 异 质 性 的 来 源 。 在 最 高 的 层次 上 ， 模 式 可 以 不 同 。 例 如 ， 一 个 经 销 商 可 能 把 汽车 存储 
在 如 下 所 示 的 一 个 单一 的 关系 里 ; 


Cars(serialNo, model, color, autoTrans, navi,...) 


对 每 一 个 可 能 的 选项 有 一 个 布尔 值 的 属性 。 另 一 个 代理 商 可 能 使 用 一 种 模式 ， 在 它 里 面 选 
项 被 分 开 出 来 放 进 第 二 个 关系 里 面 ， 例 如 : 


Autos(serial, model, color) 
Options(serial, option) 


注意 不 仅仅 是 模式 不 同 ， 而 且 显 然 对 应 的 关系 名 或 属性 名 也 改变 了 : Cars 变 成 了 Autos, 
serialNo 变 成 了 serial, 

此 外 ， 一 个 经 销 商 的 模式 可 能 不 会 记录 大 部 分 其 他 的 经 销 商 提供 的 信息 。 例 如 ， 一 个 经 销 商 
可 能 根本 不 记录 颜色 。 为 了 应 付 缺 失 的 值 ， 有 时 我 们 可 以 使 用 NULL 或 者 默认 的 值 。 然 而 ， 因 为 
缺失 模式 元 素 是 一 个 普遍 的 问题 ， 有 一 个 趋势 是 使 用 半 结 构 化 的 数据 ， 例 如 XML， 作 为 集成 中 
间 件 的 数据 模型 。 

数据 类 型 差异 

序列 号 在 一 个 数据 源 中 可 能 用 变 长 字符 串 表 示 ， 而 在 另 一 个 数据 源 中 用 定 长 字符 串 表 示 。 
定 长 字符 串 的 长 床 也 可 能 不 同 ， 而 且 一 些 数据 源 可 能 使 用 整数 表示 序列 号 ， 而 不 用 字符 串 。 

值 异 质 性 

同一 概念 可 能 在 不 同 数据 源 中 用 不 同 常数 表示 。 黑 色 在 一 个 数据 源 中 可 能 用 一 个 整数 代码 





驴 ”大 多 数 真 实 的 汽车 公司 有 类 似 的 设施 在 适当 的 位 置 ， 他 们 的 发 展 历史 可 能 与 我 们 的 例子 不 同 。 例 如 ， 集 中 的 数 
据 库 可 能 先 出 现 ， 经 销 商 随 后 可 以 下 载 相关 的 部 分 到 他 们 自己 的 数据 库 。 然 而 ， 这 个 场景 可 以 作为 今天 许多 行 
业 的 公司 都 在 尝试 的 一 个 例子 。 
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表示 ， 而 在 另 一 个 数据 源 中 用 字符 串 BLACK 表示 ， 在 第 三 个 数据 源 中 用 BL 表示 。BL 在 另 一 个 
数据 源 中 可 能 表示 “ 蓝 ”。 

语义 异 质 性 

术语 在 不 同 数据 源 中 可 能 有 不 同 的 解释 。 一 位 经 销 商 可 能 在 关系 Cars 中 包含 有 关卡 车 的 信 
息 ， 而 另 一 位 代理 商 在 关系 Cars 中 只 存储 小 汽车 信息 。 一 位 经 销 商 可 能 区 分 大 型 货车 与 小 型 货 
车 ， 而 另 一 位 经 销 商 则 不 区 分 。 


10.2 信息 集成 的 方式 


有 几 种 使 数据 库 或 其 他 分 布 式 信息 源 协同 工作 的 方式 。 在 本 节 中 ， 我 们 将 考虑 3 个 最 常用 的 方法 : 

1. 联邦 数据 库 。 数 据 源 是 独立 的 ， 但 一 个 数据 源 可 以 访问 其 他 数据 源 以 提供 信息 。 

2. 数据 仓库 。 来 自 几 个 数据 源 的 数据 拷贝 存储 在 单一 数据 库 中 ， 称 其 为 (数据 ) 人 仓库 。 存 储 
在 数据 仓库 中 的 数据 在 存储 之 前 可 能 要 经 过 一 些 处 理 ， 例 如 ， 对 数据 进行 筛选 ， 将 关系 进行 连接 
或 聚集 。 数 据 仓 库 定 期 更 新 ， 可 能 在 夜间 进行 。 当 从 数据 源 拷贝 数据 时 ， 可 能 需要 以 某 种 方式 对 
其 进行 转换 以 使 所 有 的 数据 符合 数据 仓库 的 模式 。 

3. Mediator, mediator 是 一 种 软件 组 件 ， 它 支持 虚拟 数据 库 ， 用 户 可 查询 这 个 虚拟 数据 库 ， 就 
像 它 已 物化 (materialized) (已 物理 地 构建 起 来 ， 像 仓库 一 样 ) 了 。mediator 不 存储 任何 自己 的 数 
据 ， 而 是 将 用 户 的 查询 翻译 成 一 个 或 多 个 对 数据 源 的 查询 。 然 后 ，mediator 将 那些 数据 源 对 用 户 
查询 的 回答 进行 综合 处 理 ， 将 结果 返回 给 用 户 。 

我 们 将 依次 介绍 这 些 方法 。 所 有 方法 的 关键 问题 之 一 是 当 数 据 从 信息 源 中 提取 出 来 时 ， 使 
用 的 数据 转换 方法 。 在 10. 3 节 ， 我 们 讨论 这 种 转换 器 的 结构 ， 称 其 为 包装 器 (wrapper) 、 适 配器 
(adapter) 或 提取 器 (extractor) 。 


10.2.1 联邦 数据 库 系 统 

集成 几 个 数据 库 的 最 简单 架构 可 能 是 实现 需要 交互 的 所 有 数据 库 对 之 间 的 一 对 一 连接 。 这 
些 连 接 人 允许 一 个 数据 库 系 统 D, 以 另 一 个 数据 库 系 统 D, 能 理解 的 术语 来 查询 D,。 这 种 架构 的 问 
题 是 如 果 n 个 数据 库 中 的 每 一 个 都 需要 与 其 他 n -— 1 个 数据 库 进行 交互 ， 则 我 们 必须 写 n(n -1) 
份 代 码 以 支持 系统 之 间 的 查询 。 如 图 10-1 所 示 。 在 这 个 图 中 ， 我们 看 到 4 个 数据 库 形成 了 一 个 
联邦 。 这 4 个 数据 库 中 每 一 个 都 需要 3 个 组 件 ， 以 存 取 其 他 3 个 数据 库 。 

但 是 ， 在 某 些 情况 下 ， 联 邦 系统 可 能 是 最 容易 建立 的 ， 特 别 是 在 数据 库 之 间 的 通信 本 来 就 受 
限时 。 用 一 个 例子 说 明 翻 译 组 件 是 如 何 工作 的 。 

例 10.2 假设 Aardvark 汽车 经 销 商 想 共 享 商 品目 录 ， 但 
是 每 一 位 经 销 商 只 需要 查询 几 个 本 地 经 销 商 的 数据 库 ， 以 查 
看 他 们 是 否 有 自己 需要 的 汽车 。 更 具体 一 些 ， 考 虞 经 销 商 1， 
他 有 一 个 关系 


NeededCars(model, color, autoTrans) 


这 个 关系 的 元 组 表示 客户 的 汽车 需求 ， 客 户 通 过 型 号 、 
颜色 和 他 们 是 否 需 要 自动 变速 器 来 表达 他 们 的 这 种 需求 
( ‘yes’ BR‘ no’ 是 可 能 的 值 )。 经 销 商 2 将 存货 清单 存储 在 例 
10. 1 所 讨论 的 有 两 个 关系 的 模式 中 : 

Autos(serial, model, color) PR 10-1 4 个 数据 库 的 联邦 需要 12 

Options (serial, option) 个 组 件 以 相互 翻译 查询 
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经 销 商 1 写 了 一 个 应 用 程序 ， 它 远程 查询 经 销 商 2 的 关系 ， 以 查找 与 NeededCars 中 描述 的 每 
一 辆 汽车 匹配 的 汽车 。 图 10-2 是 一 个 程序 的 梗概 ， 其 中 戏 人 式 SQL 语句 查找 所 要 的 汽车 。 这 个 
程序 的 意图 是 用 嵌 人 式 SQL 语句 表达 对 经 销 商 2 数据 库 的 远程 查询 ， 查 询 结 果 返 回 给 经 销 商 1。 
我 们 使 用 标准 SQL 规范 ， 在 一 个 变量 前 加 一 个 冒号 表示 从 数据 库 中 检索 到 的 常数 。 

这 些 查 询 是 针对 经 销 商 2 的 模式 而 写 的 。 如 果 经 销 商 1 还 想 问 经 销 商 3 相同 问题 ， 而 经 销 商 
3 使 用 的 是 例 10. 1 中 讨论 的 第 一 个 模式 ， 只 有 单一 关系 


Cars(serialNo, model, color, autoTrans,...) 


查询 将 看 起 来 大 不 相同 。 但 是 每 一 个 查询 适用 于 它 所 针对 的 数据 库 。 口 


for(each tuple (:m, :c, :a) in NeededCars) { 
if(:a = TRUE) { /* automatic transmission wanted */ 
SELECT serial FROM Autos, Options 
WHERE Autos.serial = Options.serial AND 
Gptions.option = ’autoTrans’ AND 
Autos.model = :m AND Autos.color = ic; 





} 
else { /* automatic transmission not wanted */ 
SELECT serial 
FROM Autos 
WHERE Autos.model = :m AND Autos.color = :c AND 
NOT EXISTS ( 
SELECT * FROM Options 
WHERE serial = Autos.serial AND 
option = ’autoTrans’ 








图 10-2 经销 商 1 查询 经 销 商 2 以 获得 所 需 汽车 


10. 2.2 数据 仓库 

在 数据 仓库 集成 架构 中 ， 来自 几 个 数据 源 的 数据 被 抽取 出 来 ， 合 成 一 个 全 局 模式 。 然 后 ， 数 
据 存储 在 数据 仓库 中 ， 在 用 户 看 来 它 与 普通 数据 库 无 异 。 组 织 方 式 如 图 10-3 所 示 ， 尽 管 数据 源 
可 能 多 于 图 中 所 示 的 两 个 。 

一 旦 数据 存储 在 数据 仓库 中 ， 用 户 可 提出 查询 ， 正 如 他 们 向 任何 数据 库 提出 查询 一 样 。 数 据 
仓库 中 数据 的 构造 方法 至 少 有 两 种 : 

1. 数据 仓库 周期 性 地 对 查询 关闭 并 根据 数据 源 中 的 当前 数据 进行 重建 。 这 种 方法 是 最 常用 
的 ， 数 据 重建 每 隔 一 夜 进行 一 次 ， 或 间隔 时 间 更 长 一 些 。 

2. 根据 自 上 次 数据 仓库 被 更 新 以 后 对 数据 源 所 做 的 修改 ， 对 数据 仓库 中 的 数据 进行 周期 性 的 更 新 
(例如 每 个 晚上 ) 。 这 种 方法 可 能 只 与 少量 数据 有 关 ， 当 数据 仓库 需要 在 很 短 的 时 间 内 进行 更 新 ， 而 且 
数据 仓库 很 大 时 (使 用 多 个 TB 的 数据 仓库 正 被 普遍 使 用 ) ， 这 一 点 很 重要 。 缺 点 是 需要 计算 数据 仓库 
中 的 变化 ， 这 是 一 个 被 称 为 增 量 更 新 的 过 程 ， 与 简单 地 重新 构造 数据 仓库 的 算法 相 比 ， 这 更 复杂 。 

请 注意 ， 这 些 方法 的 任何 一 种 都 能 使 数据 仓库 避免 过 时 。 然 而 ， 通 常 来 说 ， 立 即 反 映 对 数据 
仓库 所 基于 的 数据 库 所 做 的 每 一 个 改变 的 代价 是 非常 昂贵 的 。 

例 10.3 为 简单 起 见 ， 假 设 在 Aardvark 系统 中 只 有 两 位 经 销 商 ， 他 们 分 别 使 用 模式 


Cars(serialNo, model, color, autoTrans, navi,...) 


和 


Autos(serial, model, color) 
Options(serial, option) 
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我 们 想 建立 具有 以 下 模式 的 数据 仓库 


AutosWhse(serialNo, model, color, autoTrans, dealer) 


即 全 局 模式 与 第 一 位 经 销 商 使 用 的 模式 相似 ,但 是 我 们 只 记录 具有 自动 变速 器 的 选项 ， 并 且 我 
们 包含 一 个 属性 表明 哪 一 位 经 销 商 拥 有 这 辆 汽车 。 

从 两 位 经 销 商 的 数据 库 中 提取 数据 存 人 全 局 模式 的 软件 可 以 用 SQL 查询 来 写 。 为 第 一 位 经 
销 商 写 的 查询 简单 : 


INSERT INTO AutosWhse(serialNo, model, color, 
autoTrans, dealer) 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars; 


为 第 二 个 经 销 商 写 的 数据 提取 器 比较 复杂 ， 因 为 我 们 必须 决定 一 个 给 定 的 小 汽车 是 否 有 自动 变 
速 器 。 我 们 把 这 个 SQL 代码 留 作 习题 。 

在 这 个 简单 例子 中 ， 将 从 数据 源 中 提取 的 数据 组 合 在 一 起 
的 过 程 (如 图 10-3 所 示 ) 是 不 需要 的 。 因 为 数据 仓库 是 从 每 一 
个 数据 源 中 提取 的 关系 的 并 ， 所 以 数据 是 可 以 直接 加 载 到 数据 
仓库 中 的 。 但 是 ,许多 数据 仓库 要 对 它们 从 每 -一 个 数据 源 中 提 
取 的 关系 进行 操作 。 例 如 ， 将 从 两 个 数据 源 中 提取 的 关系 进行 
连接 后 ， 再 将 结果 放 人 数据 仓库 ; 或 者 我 们 可 能 将 从 几 个 数据 
源 中 提取 的 关系 进行 并 操作 ， 然 后 对 这 个 并 的 数据 进行 聚集 。 
更 普遍 的 是 ， 从 每 一 个 数据 源 可 以 提取 几 个 关系 ,不同 的 关系 
以 不 同 的 方式 组 合 在 一 起 。 口 
10.2.3 mediator 

mediator 支持 虚拟 的 视图 或 视图 集合 ， 它 集成 几 个 数据 源 
的 方式 与 数据 仓库 中 物化 关系 集成 数据 源 的 方式 很 相似 。 但 
是 ， 因 为 mediator 不 存储 任何 数据 ， 所 以 其 机 制 与 数据 仓库 机 | - 
制 大 相 径 庭 。 图 10-4 表示 一 个 mediator 集成 两 个 数据 源 。 对 于 RUE ORE 
数据 仓库 ， 数 据 源 通常 多 于 两 个 。 首 先 ， 用 户 或 应 用 程序 向 
mediator 提出 一 个 查询 。 因 为 mediator 没有 自己 的 数据 ， 它 必须 从 它 的 数据 源 中 得 到 相应 数据 ， 
并 使 用 这 些 数据 以 形成 对 用 户 查 询 的 回答 。 sm 

于 是 ， 我 们 在 图 10-4 中 看 到 ，mediator 向 每 一 个 包装 
器 发 送 查 询 ， 包 装 器 再 依次 向 相应 数据 源 发 送 查询 。medi- 
ator 可 向 一 个 包装 器 发 送 几 个 查询 ， 还 可 不 查询 所 有 包装 
器 。 结 果 返 回 mediator 进行 组 合 。 我 们 没有 像 在 图 10-3 那 
样 画 出 一 个 显 式 的 组 合 组 件 ， 因 为 使 用 mediator 时 ， 将 来 
自 数 据 源 中 的 结果 进行 组 合 由 mediator 来 完成 。 

例 10. 4 让 我 们 考虑 与 例 10.3 相似 的 情况 ， 但 是 使 ”查询 | 光 | f 结果 
用 mediator, BẸ mediator 将 同样 的 两 个 汽车 数据 源 集成 为 一 
个 单一 关系 视图 ， 其 模式 为 : 


AutosMed(serialNo, model, color, autoTrans, dealer) 








mediator 


图 10-4 mediator 和 包装 器 将 查询 翻译 
假设 用 户 提出 以 下 查询 ， 询 问 mediator 有 关 红 色 汽 车 成 数据 源 的 查询 形式 ， 并 将 查 
的 信息 : 询 结 果 组 合 在 一 起 
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SELECT serialNo, model 

FROM AutosMed 

WHERE color = ‘red’; 
mediator 对 用 户 的 这 个 查询 做 出 反应 ， 它 将 同样 的 查询 转发 到 两 个 包装 器 。 设 计 和 实现 处 理 类 似 
查询 的 包装 器 的 方法 是 10. 3 节 的 主题 。 对 更 复杂 的 情况 ，mediator 将 首先 必须 把 查询 分 成 小 段 ， 
每 一 小 段 被 发 送 到 包装 器 的 一 个 子 集 。 但 是 在 本 例 的 情况 下 ， 翻 译 工 作 可 由 包装 器 独立 完成 。 

经 销 商 1 的 包装 器 将 这 个 查询 翻译 成 符合 经 销 商 自己 模式 的 形式 ， 他 自己 的 模式 是 : 


Cars(serialNo, model, color, autoTrans, navi,...) 


一 种 合适 的 翻译 是 : 
SELECT serialNo, model 
FROM Cars 
WHERE color = ’red’; 
对 这 个 查询 的 回答 是 serialNo-model 对 的 集合 ， 这 个 集合 由 第 一 个 包装 器 返回 到 mediator, 
同时 ， 经 销 商 2 的 包装 器 将 同一 个 查询 翻译 成 他 自己 的 模式 ， 即 


Autos(serial, model, color) 
Options(serial, option) 


经 销 商 2 的 经 翻译 过 的 一 个 适当 的 查询 基本 上 和 上 面 的 一 样 : 
SELECT serial, model 
FROM Autos 
WHERE color = ’red’; 
它 与 经 销 商 1 的 查询 的 不 同 之 处 只 在 于 所 查询 的 关系 名 和 一 个 属性 的 名 字 。 第 二 个 包装 器 将 seri- 
al-model 对 的 一 个 集合 返回 给 mediator, mediator 会 把 它们 解释 成 serialNo-model 对 。mediator 形成 
这 些 集合 的 并 ， 并 将 结果 返回 给 用 户 。 
mediator 用 于 回答 查询 的 可 选 方法 还 有 几 种， 在 例 10. 4 中 未 加 以 描述 。 例 如 ，mediator 可 以 
向 一 个 数据 源 提出 查询 ， 查 看 结果 ， 然 后 根据 返回 结果 决定 下 一 个 或 几 个 要 提出 的 查询 。 例 如 当 
用 户 查询 查找 是 否 有 Aardvark“ Gobi” 型 号 的 蓝 色 赛车 时 ， 就 适用 这 种 方法 。 第 一 个 查询 可 询问 经 
销 商 1， 且 只 有 当 结 果 为 空 时 ， 才 向 经 销 商 2 发 出 查询 。 
10.2.4 习题 
! 习题 10. 2. 1 计算 机 公司 A 将 它 所 卖 的 PC 型 号 存储 在 以 下 的 模式 中 : 
Computers(number, proc, speed, memory, hd) 
Monitors(number, screen, maxResX, maxResY) 
例如 ，Computers 中 的 元 组 (123 Athlon64, 3.1, 512, 120) 的 意思 是 型 号 123 有 一 个 3. 1GHz 的 Athlon 64 
处 理 器 、512M AE, 120G BEA, Monitors 中 的 元 组 (4$6，19，1600 ，1050) 的 意思 是 型 号 456 有 一 个 19 
英寸 的 显示 屏 ， 最 大 分 辨 率 为 1600 x 1050。 计 算 机 公司 B 只 卖 完整 的 系统 ， 包 括 计算 机 和 显示 器 。 它 的 
模式 是 


Systems(id, processor, mem, disk, screenSize) 


属性 processor 记录 运行 速度 , 以 GHz 为 单位 ， 不 记录 处 理 器 类 型 (例如 Athlon 64) ， 也 不 记录 显示 器 的 最 

大 分 辩 率 。 属 性 id. mem 和 disk 与 公司 A 中 的 number, memory 和 hd 类 似 ， 但 是 硬盘 大 小 以 MB 而 不 是 

以 GB 来 度量 。 

a) 如 果 公 司 A 想 把 公司 B 中 相关 项 目的 信息 插入 它 的 关系 中 ， 应 使 用 什么 SQL 插入 语句 ? 

b) 如果 公 司 B 想 向 Systems 插入 尽 可 能 多 的 有 关 用 A 销售 的 计算 机 和 显示 器 组 装 的 系统 的 信息 ， 那 么 什 
ARERI SQL 语句 最 方便 获得 这 样 的 信息 ? 
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! 习题 10. 2. 2 提出 一 个 全 局 模式 ， 允 许 我 们 维护 尽 可 能 多 的 有 关 习 题 10. 2. 1 中 的 公司 A 和 B 销售 的 产品 的 
信息 。 

习题 10. 2.3 假设 习题 10.2. 2 中 你 的 全 局 模式 用 在 mediator 中 ， 它 如 何 处 理 查 找 具 有 3GHz 处 理 器 速度 的 
任何 计算 机 的 硬盘 最 大 容量 这 个 查询 ? 
1 习题 10.2.4 提出 两 个 其 他 模式 ， 计 算 机 公司 可 能 使 用 它们 存储 如 习题 10. 2. 1 中 的 数据 。 你 将 如 何 将 你 的 
模式 集成 到 习题 10. 2. 2 的 全 局 模式 中 ? 

习题 10. 2.5 写 出 SQL 查询 ， 从 公司 A 和 B 的 数据 中 搜集 信息 ， 并 将 这 些 信息 连同 习题 10. 2.2 中 的 全 局 
模式 一 起 放 人 一 个 数据 仓库 中 。 

习题 10. 2. 6 进入 几 个 在 线 书店 的 网 页 ， 看 看 你 可 以 找到 关于 本 书 的 什么 信息 。 你 如 何 将 这 些 信息 组 合成 
一 个 适合 于 数据 仓库 或 mediator 的 全 局 模式 ? 

! 习 题 10. 2.7 在 例 10.3 中 我 们 说 到 了 经 销 商 1 使 用 的 一 个 关系 Cars， 它 有 一 个 属性 autoTrans， 这 个 属性 只 
AE yes’ 和 “no’ 。 因 为 这 些 值 与 全 局 模式 中 那个 属性 的 值 相同 ， 那 么 关系 AutosWhse 的 建立 特别 容易 。 假 
设 属性 Cars. autoTrans 的 值 为 整数 ，0 意味 着 没有 自动 变速 器 ，i > 0 意味 着 小 汽车 有 一 个 i- 速 自动 变速 器 。 
说 明 从 Cars 到 AutosWhse 的 翻译 如 何 用 SQL 查询 实现 。 
习题 10. 2. 8 为 例 10. 3 中 的 第 二 个 经 销 商 写 插入 语句 。 你 可 以 假定 autoTrans WED y’ A'n’ o 
习题 10. 2.9 例 10.4 中 的 mediator 如 何 翻 译 如 下 查询 : 

a) 查找 没有 自动 变速 器 的 汽车 的 序列 号 。 
b) 查 找 有 自动 变速 器 的 汽车 的 序列 号 。 
lc) 查找 经 销 商 1 销售 的 蓝 色 汽 车 的 序列 号 。 


10.3 基于 mediator 的 系统 中 的 包装 器 


在 如 图 10-3 所 示 的 数据 仓库 系统 中 ， 数 据 源 提取 器 包括 : 

1. 一 个 或 多 个 预定 义 的 查询 ， 它 们 在 数据 源 中 执行 , 为 数据 仓库 提供 数据 。 

2. 合适 的 通信 机 制 ， 使 包装 器 (提取 器 ) 能; 

a) 向 数据 源 传送 即席 查询 。 

b) 接收 来 自 数 据 源 的 反应 。 

c) 向 数据 仓库 传送 信息 。 

如 果 数 据 源 是 SQL 数据 库 ， 如 10. 2 节 我 们 使 用 的 例子 ， 则 预定 义 的 对 数据 源 的 查询 可 以 是 
SQL 查询 。 对 于 不 是 数据 库 系统 的 数据 源 ， 查 询 也 可 以 是 以 任何 适用 于 数据 源 的 语言 书写 的 操 
作 。 例 如 ， 包 装 器 可 能 填充 一 个 网 页 中 的 在 线 表格 ， 使 用 在 线 书 目 服务 系统 自身 的 特定 语言 向 其 
发 送 一 个 查询 ， 或 使 用 无 数 其 他 各 种 符号 来 提出 查询 。 

但 是 mediator 系统 需要 比 数据 仓库 系统 更 复杂 的 包装 器 。 包 装 器 必须 能 够 从 mediator 接收 各 
种 查询 ， 将 各 个 查询 翻译 成 数据 源 的 术语 。 当 然 ， 包 装 器 必须 将 结果 传送 到 mediator， 就 像 是 数 
据 仓库 系 统 中 的 包装 器 与 数据 仓库 通信 一 样 。 在 本 节 中 我 们 将 研究 构造 适用 于 mediator 使 用 的 灵 
活 的 包装 器 。 


10.3.1 查询 模式 的 模板 

设计 连接 mediator 与 数据 源 的 包装 器 的 系统 性 方法 是 将 mediator 可 能 要 使 用 的 查询 分 类 , 成 
为 模板 ， 它 们 是 具有 代表 常数 的 参数 的 查询 。mediator 提供 常数 ， 包 装 器 执行 具有 给 定常 数 的 查 
询 。 用 一 个 例子 来 说 明 这 种 思想 ， 在 例子 中 ， 用 符号 T= > 5 表达 模板 T 由 包装 器 变 成 源 查询 S 
的 思想 。 

例 10.5 假设 我 们 想 为 经 销 商 1 的 数据 源 构造 一 个 包装 器 ， 这 个 数据 源 的 模式 为 
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Cars(serialNo, model, color, autoTrans, navi,...), 


包装 器 由 具有 模式 


AutosMed(serialNo, model, color, autoTrans, dealer) 


的 mediator 使 用 。 考 虑 mediator 如 何 查询 包装 器 以 获得 给 定 颜色 的 汽车 。 如 果 我 们 能 用 参数 $ c 
来 指明 表示 该 颜色 的 代码 ， 则 我 们 能 使 用 图 10-5 所 示 的 模板 。 


SELECT * 
FROM AutosMed 
WHERE color = ’$c’; 
=> 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars 
WHERE color = ‘$c’; 


图 10-5 描述 对 给 定 颜色 汽车 进行 查询 的 包装 器 模板 


同样 ， 这 个 包装 器 可 能 有 另 一 个 模板 ， 它 只 规定 参数 $m 表示 一 种 型 号 ， 还 可 有 另 一 个 模 
板 ， 它 只 指明 是 否 需 要 一 个 自动 驾驶 器 ， 等 等 。 在 这 种 情况 下 ， 如 果 人 允许 查询 指定 三 个 属性 中 的 
任何 一 种 : model，color，autoTrans ， 共 有 八 种 选择 。 总 的 来 说 ， 如 果 我 们 可 指定 个 属性 ， 则 
将 有 2 ”种 模板 。 如 果 有 查找 某 一 类 型 汽车 总 数 的 查询 ， 或 是 否 存 在 某 一 类 型 的 汽车 ， 则 需要 其 
他 模板 。 尽 管 模板 数目 将 会 变 得 异常 巨大 ， 但 是 若 设计 包装 器 时 使 用 更 多 的 技巧 ， 也 有 可 能 获得 
某 些 简化 ， 如 我 们 将 在 10. 3. 3 节 将 讨论 的 那样 。 口 


10.3.2 包装 器 生成 器 

定义 包装 器 的 模板 必须 转变 成 包装 器 自己 的 代码 。 创 建 包 装 器 的 软件 称 为 包装 器 生成 器 。 
从 本 质 上 说 ， 它 与 分 析 器 生成 器 (如 YACC) 类 似 ; 分 析 器 生成 器 从 高 级 规范 说 明 中 产生 编译 器 的 
组 件 。 包 装 器 生成 过 程 如 图 10-6 所 示 ， 当 一 个 规范 说 明 ， 即 模板 集合 输入 包装 器 生成 器 时 ， 这 
个 过 程 就 开始 了 。 来 自 mediator ， 

的 查询 

包装 器 生成 器 创建 一 个 表 ， 它 存储 模板 中 包含 的 
各 种 查询 模式 和 与 每 一 个 查询 模式 相关 的 源 查询 。 每 
一 个 包装 器 都 要 用 到 一 个 驱动 器 ; 一 般 来 说 ， 对 每 一 
个 生成 的 包装 器 ， 驱 动 器 可 以 是 相同 的 。 驱 动 器 的 任 
务 是 : 

1. 接收 来 自 mediator 的 查询 。 通 信 机 制 可 能 是 
mediator 专用 的 ， 作 为 一 个 “plug-in ”给予 驱动 器 ， 从 
而 同一 驱动 器 可 用 于 通信 机 人 制 不 同 的 系统 。 

2. 在 所 创建 的 表 中 查找 匹配 查询 的 模板 。 如 果 
找到 一 个 模板 ， 则 查询 中 的 参数 值 用 于 实例 化 源 查 
询 。 如 果 没 有 匹配 的 模板 ， 包 装 器 拒绝 对 mediator 做 
出 反应 。 图 10-6 ”包装 器 生成 器 为 驱动 器 建 表 ， 张 动 

3. 源 查 询 发 送 到 数据 源 ， 又 一 次 使 用 “plug-in” 器 和 表 组 成 包装 器 














全 ”如 果 数 据 源 是 一 个 能 用 SQL 查询 的 数据 库 ， 如 我 们 的 例子 ， 通 过 简单 地 将 WHERE 语句 做 成 一 个 参数 ， 你 可 以 期 
望 一 个 模板 将 任何 数目 的 属性 处 理 为 常数 。 这 种 方法 适用 于 SQL 数据 源 和 只 将 属性 绑 定 到 常数 的 查询 ， 我 们 不 
必 对 任何 数据 源 使 用 同样 的 思想 ， 如 网 页 只 允许 某 些 表格 作为 接口 。 在 一 般 情 况 下 ， 我 们 不 能 假设 一 个 查询 的 
翻译 方式 与 所 有 类 似 查 询 的 翻译 都 相同 。 
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通信 机 制 。 数 据 源 的 答复 由 包装 器 收集 。 
4. 如 果 必 要 ， 数 据 源 的 答复 由 包装 器 处 理 ， 然 后 返回 给 mediator。 下 一 节 讨 论 包 装 器 如 何 通 
过 处 理 结果 支持 更 大 的 查询 类 别 。 


10.3.3 过 滤器 

假设 一 位 汽车 经 销 商 的 数据 库 的 一 个 包装 器 有 如 图 10-5 所 示 的 模板 。 但 是 要 让 mediator 查 
找 某 一 型 号 和 颜色 的 汽车 。 包 装 器 可 能 被 设计 为 一 个 具有 如 图 10-7 所 示 的 更 复杂 的 模板 ， 它 处 
理 既 指明 型 号 又 指明 颜色 的 查询 。 但 是 ， 正 如 我 们 在 例 10. 5 结束 处 所 指出 的 那样 ， 为 每 一 个 可 
能 的 查询 都 写 一 个 模板 是 不 现实 的 。 


SELECT * 
FROM AutosMed 
WHERE model = ’$m’ AND color = ’$c’; 
=> 
SELECT serialNo, model, color, autoTrans, ’dealer1’ 
FROM Cars 
WHERE model = *$m’ AND color = :$e’; 


图 10-7 查询 给 定型 号 和 颜色 的 车 的 包装 器 模板 


支持 更 多 查询 的 另 一 种 方法 是 让 包装 器 过 滤 向 数据 源 所 提 查 询 的 结果 。 只 要 包装 器 有 一 个 
模板 (通过 对 参数 的 适当 替代 ) ， 它 返回 查询 所 需 结 果 的 超 集 ， 则 有 可 能 在 包装 器 中 过 滤 返 回 的 
元 组 ， 只 将 所 需 元 组 传送 到 mediator, 

例 10.6 假设 我 们 所 拥有 的 唯一 模板 如 图 10-5 所 示 ， 它 查找 给 定 一 种 颜色 的 汽车 。 但 是 
mediator 要 查找 蓝 色 “Gobi’ 型 号 的 汽车 。 一 种 可 能 的 回答 查询 的 方法 是 使 用 图 10-5 的 模板 ， 用 
$c = ‘blue’ 查找 所 有 蓝 色 汽车 ， 将 结果 保存 在 如 下 的 临时 关系 中 。 


TempAutos(serialNo, model, color, autoTrans, dealer) 


然后 包装 器 可 以 通过 执行 本 地 的 查询 ， 返 回 给 mediator 所 需 的 汽车 的 集合 : 


SELECT * 
FROM TempAutos 
WHERE model = ’Gobi’; 


在 实际 中 ，TempAutos 的 元 组 将 以 管道 方式 一 次 一 个 地 产生 ， 且 一 次 一 个 地 过 滤 ， 而 不 是 在 
包装 器 中 物化 整个 关系 TempAutos ， 然 后 再 过 滤 。 口 


过 滤 组 件 的 位 置 
在 我 们 的 例子 中 ， 我 们 假设 过 瀣 操作 发 生 在 包装 器 。 也 可 能 包装 器 将 原始 数据 传送 到 
mediator， 由 mediator 过 滤 数 据 。 但 是 ， 如 果 由 模板 返回 的 大 部 分 数据 不 匹配 mediator 的 查询 ， 
则 最 好 在 包装 器 过 泪 ， 避 免 传输 不 需要 的 元 组 的 代价 。 




















10. 3.4 包装 器 上 的 其 他 操作 

只 要 我 们 确保 模板 的 源 查询 部 分 将 转换 所 需 的 所 有 数据 返回 到 包装 器 ， 那 么 在 包装 器 中 以 
其 他 方式 对 数据 进行 转换 也 是 可 能 的 ， 例 如 ， 在 将 元 组 传输 到 mediator 之 前 ， 对 列 进行 投影 。 甚 
至 可 能 在 包装 器 中 进行 聚集 和 连接 ， 而 后 将 结果 传送 到 mediator, 

例 10.7 假设 mediator 想 知道 在 各 个 经 销 商 处 的 蓝 色 Gobi 汽车 的 信息 ， 但 只 要 求 返 回 序列 
号 、 经 销 商 和 是 否 有 自动 变速 器 ， 因 为 属性 model 和 color 的 值 从 查询 中 显而易见 。 包 装 器 可 以 
像 例 10. 6 那样 进行 处 理 ， 但 在 最 后 一 步 ， 当 结果 要 返回 到 mediator 时 ， 包 装 器 在 SELECT 子 句 中 
执行 投影 ， 并 在 WHERE 子 语句 中 过 滤 以 得 到 Gobi HS. AA 
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SELECT serialNo, autoTrans, dealer 

FROM TempAutos 

WHERE model = ’Gobi’; 
执行 这 种 额外 的 过 滤 ， 尽 管 像 在 例 10. 6 中 那样 , 关系 TempAutos 可 能 会 被 以 管道 方式 送 人 投影 操 
作 符 ， 而 不 是 在 包装 器 中 进行 物化 。 口 

例 10. 8 对 一 个 更 复杂 的 例子 ， 假 设 要 求 一 个 mediator 查找 经 销 商 和 型 号 ， 条 件 是 经 销 商 
有 两 辆 同型 号 红色 汽车 ， 一 辆 有 自动 变速 器 ， 另 一 辆 没有 。 假 设 对 经 销 商 1 来 说 ， 唯 一 可 用 的 模 
板 是 图 10-5 中 有 关 颜 色 的 模板 。 即 mediator 询问 包装 器 ， 以 查找 对 图 10-8 中 查询 的 问答。 注意 ， 
我 们 不 必 为 Al 或 A2 指明 一 位 经 销 商 ， 因 为 这 个 包装 器 只 能 存 取 属 于 经 销 商 1 的 数据 。mediator 
也 将 就 同一 个 查询 询问 其 他 经 销 商 的 包装 器 。 





一 个 设计 精巧 的 包装 器 能 发 现 ， 有 可 能 先 从 经 销 商 1 的 数 SELECT Al.model Ai.dealer 
据 源 得 到 一 个 该 经 销 商 代理 的 所 有 红色 汽车 的 关系 : FROM AutosMed A1, AutosMed A2 
WHERE At.model = A2.model AND 
RedAutos(serialNo, model, color, autoTrans, dealer) Ai.color = ‘red’ AND 
、 A2.color = ‘red’ AND 
然后 再 回答 mediator 的 查询 。 Al.autoTrans = ’no’ AND 
为 了 得 到 这 个 关系 ， 包 装 器 使 用 图 10-5 得 到 的 模板 ， 这 ne T yen’: 








个 模板 处 理 只 指明 颜色 的 查询 。 结 果 是 ， 包 装 器 进行 运行 ， 就 图 10-8 M mediator 到 包装 器 的 查询 
像 给 了 它 下 面 的 查询 : 


SELECT * 
FROM AutosMed 
WHERE color = ’red’; 


而 后 ， 包 装 器 通过 使 用 图 10-5 的 模板 , 令 Sc = red， 从 SELECT DISTINCT At.model, A1.dealer 
经 销 商 1 的 数据 库 构 建 关系 RedAutos。 下 一 步 ， 包装 器 FROM RedAutos A1, RedAutos A2 


WHERE Al.mode} = A2.model AND 








执行 RedAutos 与 自身 的 连接 ， 进 行 必要 的 选择 ， 以 得 到 A1.autoTrans = ’no’ AND 

图 10-8 中 的 查询 所 要 求 的 关系 。 在 这 一 步 中 ， 包 装 器 所 A2.autoTrans = ’yes’; 
执行 的 工作 如 图 10-9 所 示 。 图 10-9 为 回答 图 10-8 中 的 查询 在 包装 
10.3.5 习题 器 (或 mediator) 上 执行 的 查询 


习题 10. 3. 1 在 图 10-5 中 ， 我 们 看 到 一 个 简单 的 包装 器 模板 ， 它 将 来 自 mediator 的 查找 一 种 给 定 颜色 汽车 
的 查询 ， 翻 译 成 针对 具有 关系 Cars 的 经 销 商 的 查询 。 假 设 mediator 的 模式 所 使 用 的 颜色 代码 不 同 于 这 个 
经 销 商 所 用 的 颜色 代码 ， 且 存在 一 个 关系 GtoL (globalColor, localColor) 实现 这 两 套 代码 之 间 的 翻译 。 重 写 
模板 ， 以 产生 正确 的 查询 。 

习题 10. 3. 2 在 习题 10.2. 1 中 ， 我 们 说 到 两 个 计算 机 公司 4 和 B， 使 用 不 同 模式 描述 其 产品 信息 。 假 设 我 
们 有 一 个 mediator， 其 模式 为 


PCMed(manf, speed, mem, disk, screen) 


直观 含义 是 元 组 给 出 制造 商 (4 或 B) ， 你 要 从 那个 公司 购买 的 系统 的 处 理 器 速度 、 主 存 大 小 、 硬 盘 大 小 、 
和 显示 器 尺寸 。 为 以 下 类 型 的 查询 书写 包装 器 模板 。 注 意 你 必须 为 每 个 查询 写 两 个 模板 ， 每 位 制造 商 
一 个 。 
a) 给 定 内 存 和 硬盘 大 小 ， 查 找 匹配 的 元 组 。 
b) 给 定 一 个 速度 ， 查 找 具 有 那个 速度 的 元 组 。 
c) 给 定 一 个 显示 器 尺寸 ， 查 找 上 其 有 那个 尺寸 的 元 组 。 

习题 10. 3. 3 ”假设 对 两 个 数据 源 ( 计算 机 制造 商 ) 的 每 一 个 , 你 都 可 用 习题 10. 3. 2 中 所 描述 的 包装 器 模板 。 
mediator 如 何 使 用 包装 器 的 能 力 以 回答 下 列 查询 ? 
a) 查 找 具 有 1024MB 内 存 、 显 示 器 尺寸 (以 英寸 计 ) 大 于 硬盘 大 小 (以 GB 计 ) 的 所 有 系统 。 
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b) 查 找 具 有 2. 8GHz 速度 和 120GB 硬盘 的 所 有 系统 的 制造 商 、 内 存 大 小 、 显 示 器 大 小 。 
c) 查 找 具 有 3. 1CHz 处 理 器 的 系统 可 用 的 硬盘 最 大 容量 。 


10.4 基于 能 力 的 优化 


在 5.5 节 中 我 们 介绍 了 基于 成 本 的 查询 优化 的 思想 。 一 个 典型 的 数据 库 管理 系统 估计 每 个 查 
询 计划 的 成 本 ， 然 后 选择 一 个 它 认 为 是 最 好 的 。 当 mediator 被 给 予 一 个 查询 需要 回答 ， 它 往往 没 
有 什么 知识 来 知道 它 的 数据 源 将 花费 多 少时 间 用 来 回答 它 所 发 送 的 查询 。 此 外 ， 许 多 数据 源 并 
不 是 SQL 数据 库 ， 而 且 它 们 往往 只 会 回答 由 mediator 提出 的 这 些 类 型 的 查询 的 一 个 很 小 的 子 集 。 
Alte, mediator 查询 的 优化 不 能 仅仅 依靠 代价 度量 来 选择 查询 计划 。 

mediator 所 进行 的 优化 通常 遵循 如 下 简单 的 策略 ， 称 为 基于 能 力 的 优化 。 核 心 问 题 不 是 一 个 
查询 计划 的 成 本 ， 而 是 该 计划 是 否 真 的 能 够 执行 。 只 有 在 可 执行 (“ 可 行 的 ”) 的 计划 中 ， 我 们 才 
会 尝试 估计 成 本 。 


10. 4. 1 有 限 的 数据 源 能 力 问题 

今天 ， 许 多 有 用 的 数据 源 只 有 基于 Web 的 界面 ， 即 使 他 们 在 幕后 是 一 个 普通 的 数据 库 。 网 
络 数据 源 通常 只 允许 通过 一 个 查询 表单 进行 查询 ， 不 接受 任意 SQL 查询 。 于 是 ， 我 们 输入 某 些 
属性 值 ， 然 后 可 以 得 到 关于 其 他 属性 值 的 回复 。 

例 10.9 Amazon. com 的 界面 允许 我 们 以 许多 不 同 的 方式 查询 图 书 。 我们 可 以 指定 一 个 作 
者 ， 获 得 他 的 所 有 的 书籍 ， 或 者 我 们 可 以 指定 一 个 书 名 ， 接 收 关于 这 本 书 的 信息 。 我 们 可 以 指定 
关键 字 ， 并 获得 匹配 关键 字 的 图 书 。 然 而 ， 也 有 一 些 信息 我 们 可 以 在 回复 里 得 到 ， 但 不 能 指定 。 
例如 ，Amazon 按 书 籍 的 销量 排名 ， 但 我 们 不 能 要 求 “给 我 排名 前 10 位 的 书籍 ” 。 此 外 ， 我 们 不 能 
问 一 些 过 于 笼统 的 问题 。 例 如 ， 查 询 : 


SELECT * FROM Books; 


“告诉 我 你 知道 的 关于 书籍 的 一 切 ”， 不 能 通过 Amazon 网 络 界面 被 询问 或 回答 ， 尽 管 如 果 我 们 能 
够 直接 访问 Amazon 数据 库 ， 就 可 以 在 幕后 做 出 回答 。 

还 有 一 些 其 他 的 原因 ， 导 致 一 个 数据 源 可 能 限制 查询 被 询问 的 方式 。 其 中 有 : 

1. 许多 早期 的 数据 源 没有 使 用 数据 库 管 理 系统 ， 当 然 更 不 是 支持 SQL 查询 的 关系 型 数据 库 
管理 系统 。 这 些 系统 被 设计 成 只 能 通过 某 些 非常 特殊 的 方法 进行 查询 。 

2. 出 于 安全 原因 ， 一 个 数据 源 可 能 限制 它 可 以 接受 的 查询 的 类 型 。Amazon 不 愿意 回答 查询 
“告诉 我 你 所 有 的 书 " 是 一 个 最 基本 的 例子 ， 它 可 以 防止 对 手 利用 Amazon 数据 库 。 作 为 另 一 个 例 
子 ， 一 个 医疗 数据 库 可 能 回答 关于 平均 值 的 查询 ， 但 不 会 透露 一 个 特定 的 病人 的 病历 细节 。 

3. 大 型 数据 库 上 的 索引 可 能 会 使 某 些 类 型 的 查询 可 行 ， 而 另 一 些 则 过 于 昂贵 而 不 能 执行 。 
例如 ， 如 果 图 书 数据 库 是 关系 型 的 ， 其 中 一 个 属性 是 author， 如 果 没 有 一 个 该 属性 上 的 索引 ， 那 
么 回答 指定 的 唯一 一 位 作家 的 查询 将 是 不 可 行 的 。? 

10.4.2 描述 数据 源 能 力 的 记号 
如 果 数 据 是 关系 型 的 ,或 可 能 被 认为 是 关系 型 的 ， 那 么 我 们 可 以 用 修饰 符 (adomment) 来 描 


述 查询 的 合法 形式 。 这 是 代表 对 关系 的 属性 的 要 求 的 代码 序列 ， 以 它们 的 标准 顺序 给 出 。 我 们 下 
面 用 于 修饰 符 的 代码 反映 了 最 常见 的 数据 源 的 能 力 。 它 们 是 : 





© 但是， 我们 应 该 意识 到 ， 像 Amazon 的 关于 产品 这 样 的 信息 不 是 像 一 个 关系 数据 库 屠 样 存 取 的 。 相 反 ， 有 关 书 籍 
的 信息 被 存储 为 文本 ， 并 有 倒 排 索引 ， 就 像 在 第 3. 1. 8 节 所 讨论 的 。 因 此 ， 查 询 有 关 书 籍 的 任何 方面 一 一 作者 、 
标题 、 标 题 中 的 词 ， 或 者 描述 书籍 的 词 一 一 是 该 索引 所 支持 的 。 
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1. f(free) 意味 着 该 属性 可 以 指定 或 不 指定 ， 根 据 我 们 的 选择 。 

2. b( bound ) 意味 着 我 们 必须 为 该 属性 指定 一 个 值 ， 但 允许 任何 值 。 

3. u (unspecified) 意味 着 不 允许 我 们 指定 该 属性 的 值 。 

4. c[S] (choice from set S) 意味 着 必须 指定 一 个 值 ， 而 且 必 须 是 一 个 有 限 集合 S 中 的 某 一 个 
值 。 这 个 选项 对 应 ， 例 如 ， 从 一 个 Web 界面 的 下 拉 菜 单 中 指定 的 值 。 

5. o[ S] (optional, from set) 意味 着 我 们 可 以 不 指定 值 ， 或 我 们 指定 的 值 在 有 限 集合 P. 

此 外 ,我 们 在 代码 上 加 一 撤 ( 例 如 ，f') ， 以 表明 该 属性 不 属于 查询 的 输出 的 一 部 分 。 

一 个 数据 源 的 能 力 规约 是 一 套 修饰 符 。 其 意图 是 ， 为 了 成 功 地 查询 数据 源 ， 查 询 必 须 符 合 在 
能 力 规约 里 的 一 个 修饰 符 。 注 意 ， 如 果 一 个 修饰 符 有 自由 的 或 可 选 的 成 分 ， 则 有 不 同 的 指定 属性 
的 集合 的 查询 可 能 匹配 该 修饰 符 。 

例 10. 10 ”假设 我 们 有 两 个 数据 源 ， 例 如 上 述 例 10. 4 中 的 两 个 经 销 商 。 经 销 商 1 是 一 个 数 
据 源 ， 形 式 为 ; - 


Cars(serialNo, model, color, autofrans, navi) 


请 注意 ， 在 最 初 ， 我 们 建议 关系 Cars 可 以 有 额外 的 属性 来 代表 可 选项 ,但 为 了 这 个 例子 的 简单 
性 ， 让 我 们 限制 我 们 的 思维 在 自动 变速 箱 和 导航 系统 上 。 这 里 有 两 种 可 能 的 方式 ， 经 销 商 1 可 能 
会 使 用 ， 以 允许 这 一 数据 被 用 来 查询 : 

1. 用 户 指定 一 个 序列 号 。 产 生 所 有 的 有 关 具 有 该 序列 号 的 汽车 的 信息 (例如 ， 其 他 4 个 属 
性 ) 作 为 输出 。 该 查询 的 修饰 符 为 b'uuuu。 即 ,第 一 个 属性 ，serialNo 必须 被 指定 ， 而 且 不 是 输出 
的 一 部 分 。 其 他 属性 不 得 被 指定 ， 而 且 是 输出 的 一 部 分 。 

2. 用 户 指定 型 号 和 色彩 ， 并 且 可 能 要 求 是 否 有 自动 变速 箱 和 导航 系统 。 所 有 符合 条 件 的 汽 
车 的 所 有 5 个 属性 被 打印 。 一 个 适当 的 修饰 符 是 : 


ubbolyes, noļo[yes, no] 


该 修饰 符 说 ， 我 们 绝 不 能 指定 序 别 号 ， 我 们 必须 指定 模型 和 颜色 ， 但 允许 在 这 些 域 上 给 予 任何 可 
能 的 值 。 此 外 ， 如 果 我 们 希望 ， 我 们 可 以 指定 我 们 是 否 需要 自动 变速 器 和 /或 导航 系统 ， 但 只 能 
通过 在 这 些 域 上 的 值 “yes” 和 “no” 来 指定 。 口 


10.4.3 ”基于 能 力 的 查询 计划 选择 

给 定 一 个 mediator 上 的 查询 ， 基 于 能 力 的 查询 优化 器 首先 考虑 什么 查询 它 可 以 在 数据 源 上 询 
问 ， 以 协助 解答 查询 。 如 果 我 们 想象 那些 查询 被 问 过 了 并 回答 了 ， 那 么 我 们 就 绑 定 更 多 的 一 些 属 
性 ， 这 些 绑 定 可 能 会 使 更 多 的 数据 源 上 的 查询 变 得 可 能 。 我 们 重复 这 一 过 程 ， 直 至 以 下 任 一 条 件 
成 立 : 

1. 我 们 已 经 向 数据 源 询 问 了 足够 多 的 查询 ， 以 判定 mediator 查询 的 所 有 的 条 件 ， 从 而 ,我们 
可 以 回答 那个 查询 了 。 这 样 的 一 个 计划 被 称 为 可 行 的 。 

2. 我 们 不 能 再 构造 任何 形式 的 有 效 的 数据 源 查询 ， 然 而 ， 我 们 仍然 不 能 回答 mediator 查询 ， 
在 这 种 情况 下 mediator 必须 放弃 ， 它 被 给 予 了 一 个 不 可 能 的 查询 。 

最 简单 的 需要 我 们 运用 上 述 策略 的 mediator 查询 的 形式 是 关系 的 连接 。 其 中 每 一 个 关系 带 着 
特定 的 修饰 符 ， 在 一 个 或 多 个 源 上 可 用 。 如 果 是 这 样 的 话 ， 那 么 搜索 的 战略 是 通过 提供 足够 的 参 
数 绑 定 ， 即 一 些 数据 源 允 许 有 关 那 个 关系 的 查询 被 询问 或 回答 ， 来 试图 得 到 连接 里 的 每 一 个 关 
系 的 元 组 。 一 个 简单 的 例子 将 说 明 这 一 点 。 
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修饰 符 能 保证 什么 ? 

如 果 一 个 支持 匹配 某 一 给 定 的 修饰 符 的 查询 的 数据 源 能 将 所 有 可 能 的 答案 返回 给 查询 ， 
这 非常 好 。 然 而 ， 数 据 源 通常 只 有 针对 一 个 查询 的 可 能 的 答案 的 一 个 子 集 。 例 如 ，Amazon 并 
没有 库存 每 一 本 已 经 被 写 出 的 书 ， 我 们 的 汽车 例子 的 两 个 经 销 商 各 自 都 有 不 同 的 汽车 集合 在 
他 们 的 数据 库 里 。 因 此 ， 一 个 更 适当 的 关于 修饰 符 的 解释 是 ;“ 我 将 回答 以 该 修饰 符 描述 的 
形式 给 出 的 查询 ， 我 给 出 的 每 一 个 答案 都 将 是 一 个 正确 的 答案 ， 但 我 不 保证 提供 所 有 正确 的 
答案 。” 这 种 状况 的 一 个 重要 的 后 果 是 ,如果 我 们 想 要 一 个 关系 中 的 所 有 可 用 的 元 组 ， 那 么 我 
们 就 必须 查询 每 个 可 能 贡献 那些 元 组 的 源 。 


例 10.11 我 们 假设 我 们 有 数据 源 ， 像 例 10. 4 中 的 经 销 商 2 的 关系 : 


Autos(serial, model, color) 
Options(serial, option) 


假设 ubf 是 Autos 的 唯一 的 修饰 符 ， 而 Options 有 两 个 修饰 符 ，bu 和 uc[ autoTrans, navi], 4È 
表 两 种 不 同类 型 的 我 们 可 以 用 来 询问 那个 数据 源 的 查询 。 令 查询 为 “找到 型 号 为 Gobi 并 带 有 导航 
系统 的 汽车 的 序列 号 和 颜色 ”。 

这 里 有 mediator 必须 考虑 的 三 种 不 同 的 查询 计划 : 

1. 指定 该 模型 是 Gobi， 查 询 Autos， 得 到 所 有 Gobi 模型 的 序列 号 和 颜色 。 然 后 ， 使 用 Op- 
tions 的 bu 修饰 符 ， 对 每 一 个 这 样 的 序列 号 ， 找 到 那 辆 汽车 的 可 选项 ， 并 过 滤 以 确保 它 有 导航 
系统 。 

2. 指定 导航 系统 选项 ， 查 询 Options ， 用 如 下 


uc(autoTrans, navi] 


修饰 符 ， 并 获得 所 有 带 导航 系统 的 汽车 的 序列 号 。 然 后 像 在 (1) 里 那样 查询 Autos， 以 得 到 Gobi 
型 号 的 所 有 序列 号 和 颜色 ， 并 且 对 两 个 序列 号 集合 取 交 集 。 
3. 像 在 (2) 里 那样 查询 Options， 以 得 到 带 导 航 系统 的 汽车 的 序列 号 。 然 后 使 用 这 些 序列 号 
去 查询 Autos， 看 哪些 车 是 Gobi 型 号 。 
头 两 个 计划 的 任何 一 个 都 是 可 接受 的 。 然 而 ， 第 三 个 计划 是 将 无 法 正常 工作 的 计划 之 一 ; BR 
统 不 具备 能 力 执行 这 个 计划 ， 因 为 这 个 计划 的 第 二 部 分 一 一 对 Autos 的 查询 ， 没 有 匹配 的 修饰 符 。 
口 














10.4.4 ”加 入 基于 成 本 的 优化 

当 数 据 源 的 能 力 被 检查 后 ，mediator 的 查询 优化 器 还 不 能 结束 工作 。 在 找到 了 可 行 的 计划 
后 ， 它 必须 选择 其 中 之 一 。 做 一 个 智能 的 、 基 于 成 本 的 优化 ， 要 求 mediator 知道 大 量 有 关 查 询 的 
成 本 的 信息 。 由 于 数据 源 通常 是 独立 于 mediator 的 ， 估 计 成 本 很 困难 。 例 如 ， 当 数据 源 负载 较 轻 
时 ， 可 能 需要 较 少 的 时 间 ， 但 是 它 什么 时 候 负 载 较 轻 呢 ? mediator 的 长 期 观察 是 必要 的 ， 即 使 用 
来 猜测 可 能 的 响应 时 间 。 

在 例 10. 11 中 ， 我 们 可 以 简单 地 计数 必须 对 数据 源 提 出 的 查询 的 数量 。 计 划 (2) 仅 使 用 两 个 
对 数据 源 的 查询 ， 而 计划 (1) 使 用 一 个 加 上 在 Autos 关系 中 发 现 的 Gobi 汽车 的 数量 。 因 此 ， 看 来 
计划 (2) 具 有 更 低 的 成 本 。 另 一 方面 ， 如 果 对 Options 的 每 一 个 带 一 个 序列 号 的 查询 可 被 合并 为 
一 个 查询 ， 那 么 计划 (1) 可 能 成 为 更 好 的 选择 。 


10. 4.5 习题 
习题 10. 4. 1 假定 习题 10. 2. 1 中 的 每 一 个 关系 : 
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Computers (number, proc, speed, memory, hd) 
Monitors(number, screen, maxResX, maxResY) 


是 一 个 信息 源 。 使 用 10. 4. 2 节 中 的 记号 ， 写 一 个 或 多 个 修饰 符 ， 表 达 以 下 能 力 : 
a) 我 们 可 以 查询 显示 器 ， 如 果 我 们 指定 显示 器 的 号 码 、 屏 幕 尺寸 或 在 两 个 维 上 的 最 高 分 辩 率 。 
b) 我 们 可 以 查询 有 一 个 给 定 的 处 理 器 (必须 是 “*P-IV”、“G5 ”或 “Athlon” 中 的 一 个 ) 、 给 定 的 速度 和 一 个 给 
定 的 内 存 大 小 (可 选 ) 的 计算 机 。 
c) 我 们 可 以 查询 有 任何 指定 硬盘 大 小 和 /或 任何 给 定 的 内 存 大 小 的 计算 机 。 
qd) 我 们 可 以 查询 显示 器 ， 如 果 我 们 指定 屏幕 尺寸 ， 而 且 必 须 是 22、24、26 或 30 英寸 。 除 屏幕 尺寸 外 的 所 
有 属性 都 将 返回 。 
1e) 我 们 可 以 查询 计算 机 ， 如 果 我 们 指定 处 理 器 类 型 中 的 任何 两 个 ， 处 理 器 速度 、 内 存 大 小 或 磁盘 大 小 。 
习题 10. 4. 2 假设 我 们 有 习题 10. 4. 1 中 的 两 个 数据 源 ， 但 理解 这 两 个 关系 的 属性 number 都 参考 了 一 个 完 
整 的 系统 中 的 号 码 ， 该 系统 中 的 有 些 属 性 在 一 个 数据 源 中 ， 有 些 在 另 一 个 数据 源 中 。 还 假定 描述 访问 
Computers 关系 的 修饰 符 为 buuuu, ubbff Fl uuubb, Wi Monitors 的 修饰 符 为 bff 和 wbbb。 说 明 下 面 的 查询 中 
哪些 计划 是 可 行 的 (在 你 的 列表 中 排除 任何 显然 是 比 其 他 代价 更 昂贵 的 计划 ): 
a) 找 出 有 3.0GHz 运行 速度 的 奔腾 4 处 理 器 、22 英寸 显示 器 、 最 高 分 辨 率 为 1600 x 1050 的 系统 。 
b) 找 出 有 1024MB 内 存 、120GB 硬盘 、24 英寸 显示 器 的 系统 。 
1c) 找 出 所 有 有 1. 8CHz 运行 速度 的 CS 处 理 器 、2GB 的 内 存 、200GB 磁盘 和 19 英寸 显示 器 的 系统 。 


10.5 优化 mediator 查询 


在 本 节 中 ， 我 们 给 出 一 个 贪心 算法 用 来 回答 在 mediator 上 的 查询 。 该 算法 称 为 chain， 它 
总 是 通过 发 送 查 询 序列 到 其 数据 源 来 找到 答案 ， 倘 若 至 少 有 一 个 解决 方案 存在 。 可 以 被 处 理 
的 那 一 类 查询 是 那些 涉及 来 自 数据 源 的 关系 的 连接 ， 跟 随 着 一 个 可 选 的 选择 和 可 选 的 在 输出 
属性 上 的 投影 。 这 一 类 的 查询 可 以 被 表示 为 Datalog 规则 (《 数 据 库 系统 基础 教程 ( 原 书 第 3 
版 )》5.3 节 ) 。 


10.5.1 简化 的 修饰 符 记 号 

Chain 算法 关心 Datalog 规则 ， 并 关心 是 否 先前 的 数据 源 请 求 提供 了 任何 变量 在 规则 主体 上 的 
绑 定 。 由 于 我 们 只 关心 我 们 是 否 已 经 发 现 一 个 变量 所 有 可 能 的 常数 值 ， 我 们 可 以 在 mediator 查询 
里 (尽管 不 是 在 数据 源 ) 将 自己 限制 在 b(bound) 和 ffree) 修 饰 符 上 。 也 就 是 说 , 一旦 我 们 知道 我 
们 感 兴趣 的 那个 属性 的 所 有 可 能 的 值 ( 即 在 mediator 查询 的 相应 位 置 有 一 个 b 修饰 符 ) ， 则 源 关系 
的 属性 的 c[ S] 修 饰 符 可 以 被 使 用 。 请 注意 ,数据 源 将 不 会 为 S 之 外 的 值 提供 匹配 ， 因 此 问 有 关 
这 些 值 的 问题 是 毫 无 意义 的 。 可 选 的 修饰 符 o[ S] 可 被 视 为 自由 的 ， 因 为 没有 必要 有 一 个 在 medi- 
ator 的 查询 里 的 相应 属性 上 的 绑 定 (尽管 我 们 可 以 ) 。 同 样 ， 修饰 符 u 可 被 视 为 自由 的 ， 因 为 尽管 
随后 我 们 不 能 指定 数据 源 上 的 该 属性 的 值 ， 我 们 可 以 有 或 没有 mediator 上 的 对 应 变量 的 绑 定 。 

例 10.12 让 我 们 使 用 与 例 10. 11 中 相同 的 查询 和 源 关 系 ， 但 具有 不 同 的 数据 源 能 力 。 下 面 
我 们 将 用 在 谓词 或 关系 的 名 字 上 的 上 标 来 显示 修饰 符 或 允许 的 修饰 符 集 。 在 这 个 例子 中 ， 两 个 
源 关系 允许 的 修饰 符 的 是 : 


Autost?“ (serial, model, color) 
Options*<iauteTrans, navi] (serial, option) 


也 就 是 说 ， 我 们 只 能 通过 为 option 属性 提供 “autoTrans” 或 “navi" 绑 定 来 访问 Options, AR] RRE 
通过 为 serial 属性 提供 绑 定 来 访问 Autos, 
查询 “找到 具有 导航 系统 的 Gobi 车 型 的 序列 号 和 颜色 ”用 Datalog 表示 如 下 : 


Answer(s,c) + Autositi(s, “Gobi",c) AND Optionsit(s, “navi”) 
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在 这 里 ， 注 意 子 目 标 上 的 修饰 符 。 目 前 这 些 修饰 符 是 关于 每 个 子 目 标的 什么 参数 被 约束 到 一 个 
常数 集合 上 的 注释 。 最 初 ， 只 有 Autos 子 目 标的 中 间 参 数 被 约 东 (到 只 包含 常数 “Gobi" HEF), 
Options 子 目 标的 第 二 个 参数 被 约束 到 只 包含 常数 “navi” 的 集合 。 不 久 我 们 将 看 到 的 是 ， 当 我 们 
使 用 数据 源 来 找到 匹配 一 个 或 另 一 个 子 目 标的 元 组 ， 我 们 得 到 在 Datalog 规则 里 的 一 些 变量 的 绑 
定 ， 从 而 在 修饰 符 里 把 一 些 广 变 成 加 "。 C 


10.5.2 获得 子 目 标的 回答 

我 们 现在 需要 将 10.5.1 节 开 始 时 的 注释 形式 化 ， 该 注释 是 关于 何 时 一 个 部 分 参数 被 约束 的 
子 目 标 可 以 被 数据 源 查询 回答 。 假 设 我 们 有 一 个 子 目标 R (a, a,，...，a,)， 其 中 每 一 个 x 
是 5 或 者 f。R 是 一 个 可 以 在 某 些 数据 源 上 查询 的 关系 ， 它 有 一 个 修饰 符 集 。 

假设 y,y,…y, 是 尺 在 它 的 数据 源 上 的 修饰 符 之 一 。 每 一 个 y 可 以 是 5、f、wu、c[ S]、 或 o[ S] 
(对 于 任意 集合 S) 。 则 有 可 能 为 所 提供 的 子 目 标 获 得 一 个 关系 ， 对 每 一 个 = 1，2，..……，m， 
RE: 

。 如 果 y, 是 5 或 者 c[5] 的 形式 ， IA x =b 

。 如 果 x, f, IA y, 不 是 输出 受 限 制 的 ( 即 没 有 加 撤 的 ) 。 

注意 如 果 y, Bf. uw 或 of 5] 中 的 任意 一 个 ， 那么 x TUB ORS 我 们 说 子 目 标 上 的 修饰 符 
匹配 数据 源 上 的 修饰 符 。 

例 10. 13 假设 问题 中 的 子 目标 是 RY(p, q,r, s), HE R 在 其 数据 源 的 修饰 符 是 w = 
fel S; juo[ S,] Mla, =c[5,]&bk[Ss]。 于 是 58 匹配 修饰 符 mq;， 所 以 我 们 可 以 使 用 a 来 获得 子 目标 
R(p, 9, r,s) 的 关系 。 也 就 是 说 ，a, 没有 b， 只 有 一 个 。 在 第 二 个 位 置 。 由 于 子 目标 的 修饰 符 在 
第 二 个 位 置 有 b, RAE, ZE q 被 限制 在 一 组 常量 上 ( 子 目 标的 第 二 个 参数 里 的 变量 ) 。 对 于 
每 一 个 是 集合 S 的 成 员 的 那些 常量 ,我 们 可 以 向 R 的 数据 源 发 送 一 个 查询 ， 使 用 该 常量 作为 第 
二 个 参数 的 绑 定 。 我 们 不 为 其 他 参数 提供 任何 绑 定 ， 即 使 a, 允许 我 们 也 可 以 为 第 一 个 和 /或 第 4 
个 参数 提供 一 个 绑 定 。 

RM, bf REE  。 原 因 是 ，o 在 第 4 个 位 置 有 c[ S,] ， 而 5 好 在 那个 位 置 有 f/f。 如果 我 们 要 
尝试 使 用 o 来 获取 尺 ， 我 们 将 为 第 4 个 参数 提供 一 个 绑 定 ， 这 意味 着 R(p, q,r, s) PREE s 将 不 
得 不 限制 在 一 组 常量 上 。 但 我 们 知道 情况 并 非 如 此 ， 否 则 子 目标 的 修饰 符 将 在 第 4 个 位 置 有 5。 O 
10.5.3 Chain 算法 | 

Chain 算法 是 一 个 贪心 算法 ， 用 来 选择 一 个 顺序 ， 按 此 顺序 我 们 为 Datalog 规则 的 每 一 个 子 目 
标 获 得 一 个 关系 。 这 不 是 保证 提供 最 有 效 的 解决 方案 ， 但 只 要 存在 解决 方案 它 就 会 提供 一 个 ， 而 
且 在 实践 中 ， 很 可 能 获得 最 有 效 的 解决 办 法 。 该 算法 维护 两 类 信息 : 

。 为 每 一 个 子 目 标 维护 一 个 修饰 符 。 起 初 ， 子 目标 的 修饰 符 有 4 当 且 仅 当 mediator 查询 为 那 

个 子 目 标的 对 应 参数 提供 了 一 个 常量 绑 定 ， 例 如 ， 例 10. 12 里 的 查询 为 Autos 和 Options 
子 目标 的 第 二 个 参数 都 提供 了 绑 定 。 在 所 有 其 他 地 方 ， 修 饰 符 有 /。 

。 一 个 是 所 有 已 经 被 解决 的 子 目标 的 关系 的 连接 (的 投影 ) 的 关系 下。 当 一 个 子 目 标的 修饰 
符 匹 配 该 子 目 标 在 数据 源 上 的 其 中 一 个 修饰 符 ， 并 且 我 们 从 数据 源 中 提取 了 该 子 目标 的 
所 有 可 能 的 元 组 ， 我 们 就 解决 了 这 个 子 目标 。 起 初 ， 因 为 没有 任何 子 目标 已 经 被 解决 ，X 
是 没有 属性 的 关系 ， 只 包含 空 元 组 ( 即 零 成 分 元 组 ) 。 请 注意 ， 对 于 空 的 六 和 任何 关系 R， 
XmR=R， 即 最 初 X 是 自然 连接 操作 的 恒 等 关系 。 随 着 算法 的 进展 ,将 有 作为 规则 的 
变量 的 属性 一 一 对 应 于 在 它们 出 现 的 子 目标 的 修饰 符 里 的 的 那些 变量 。 

Chain 算法 的 核心 如 下 。 如 上 初始 化 关系 下 和 子 目 标的 修饰 符 后 ， 我 们 重复 选择 一 个 可 以 被 
解决 的 子 目标 。 令 R*(a, ，o ，…，a,) 是 要 解决 的 子 目 标 。 我 们 这 样 做 : 
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1. 只 要 a 中 有 一 个 8， 我们 会 发 现 ， RARKHAMSRE-THAMRE-TEEA, BAE 
是 关系 的 模式 里 的 其 中 一 个 变量 。 投 影 里 的 每 一 个 元 组 ， 加 上 子 目 标尺 里 的 常量 ， 如 果 有 的 
话 ， 提 供 有 效 的 绑 定 来 使 用 数据 源 关 系 R 的 其 中 一 个 修饰 符 a 能 匹配 的 任何 一 个 修饰 符 。 

2. 为 每 一 个 在 的 投影 里 的 元 组 i 向 数据 源 提交 一 个 查询 。 根 据 a 所 匹配 的 数据 源 修饰 符 
B， 我 们 构建 查询 如 下 。 

a) 如 果 B 的 一 个 成 分 是 8， 那么 a 的 相应 成 分 也 是 5， 我 们 可 以 使 用 :的 相应 成 分 (或 子 目标 
里 的 一 个 常量 ) 来 提供 必要 的 数据 源 查询 的 绑 定 。 

b) 如 果 pB 的 一 个 成 分 是 [S], MA a 的 相应 成 分 仍然 是 83， 并 且 我 们 能 够 从 子 目 标 或 者 元 
组 i 获得 一 个 常量 。 但 是 ， 如 果 那 个 常量 不 在 $S 里 ， 则 数据 源 没有 任何 可 能 可 以 生成 任何 匹配 : 
的 元 组 ， 所 以 我 们 不 会 为 1 产生 任何 数据 源 查 询 。 

c) 如 果 8B 的 一 个 成 分 是 /， 则 如 果 可 行 ， 就 为 数据 源 查 询 里 的 该 成 分 生成 一 个 常量 值 ， 否 则 不 为 
数据 源 查 询 里 的 该 成 分 提供 值 。 请 注意 ， 当 a 的 相应 成 分 恰好 是 5 时 ,我 们 可 以 提供 一 个 常量 。 

d) 如 果 6B 的 一 个 成 分 是 w， 则 不 为 该 成 分 提供 绑 定 ， 即 使 a 的 相应 组 成 部 分 是 bo 

e) 如 果 B 的 一 个 成 分 是 of S] ， 对 于 这 部 分 , 在 a 的 相应 组 成 部 分 是 f 的 情况 下 就 好 像 它 是 
f, 在 a 的 相应 组 成 部 分 是 5 的 情况 下 就 好 像 它 是 c[ S]。 

对 于 返回 的 每 一 个 元 组 ， 扩 展 该 元 组 使 得 它 对 应 子 目 标的 每 一 个 参数 有 一 个 成 分 ( 即 n 个 成 
分 )。 请 注意 ， 数 据 源 将 返回 非 输 出 受 限制 的 RR 的 每 一 个 成 分 ， 所 以 不 出 现 的 成 分 只 是 在 修饰 符 
a EA b 的 成 分 。 因 此 ， 返 回 的 元 组 可 以 通过 使 用 来 自 子 目标 的 常量 或 来 自 的 投影 里 的 元 组 的 
常量 来 填充 。 所 有 的 回应 的 并 集 就 是 子 目 标 R(a, ,a,，…, a, 的 关系 R。 

3. ci， om，…，ow 中 的 每 一 个 变量 现在 都 被 绑 定 了 。 对 于 每 个 尚未 解决 的 子 目 标 ， 改 变 它 的 
修饰 符 ， 使 得 持 有 这 些 变量 中 的 其 中 一 个 的 任何 位 置 现在 都 被 绑 定 (2) 。 

4. FAX Pda (R) REX, HP SEa, a, o, a 中 的 所 有 变量 。 

5. 把 对 应 于 没有 在 头 里 或 任何 未 解决 的 子 目标 里 出 现 的 变量 的 所 有 成 分 ， 从 对 里 投影 出 去 。 
这 些 成 分 永远 不 可 能 在 后 续 的 处 理 中 有 用 。 

于 是 ， 完 整 的 Chain 算法 包括 如 上 所 述 的 初始 化 ， 接 着 是 我 们 可 以 做 到 的 那么 多 子 目 标 解决 
步骤 。 如 果 我 们 成 功 地 解决 每 个 子 自 标 ， 那么 将 是 查询 的 回答 。 如 果 在 某 些 点 上 有 未 解决 的 
子 目 标 ， 且 仍然 没有 能 够 得 到 解决 ， 那 么 该 算法 失败 。 在 这 种 情况 下 ， 不 可 能 有 其 他 解决 步 又 的 
序列 来 回答 查询 。 

例 10. 14 考虑 这 个 mediator 查询 


Q: Answer(c) + R°f(1,a) AND S/f(a,b) AND Tff (b,c) 


有 3 个 数据 源 ， 分 别提 供 关 于 RR, SALT MOINS. CORE Le eH A 
些 数据 源 支持 的 修饰 符 在 图 10-10 中 显示 。 | 
起 初子 目标 上 的 修饰 符 如 查询 @ 里 所 示 ， 且 我 们 构建 的 关系 站 最 初 只 包含 空 元 组 。 由 于 
子 目标 3 和 了 有 六 修饰 符 ， 但 在 相应 的 数据 源 上 的 修 
饰 符 每 个 都 有 一 个 带 或 c 的 成 分 ， 这 两 个 子 目标 都 不 | 关系 R S T 
能 得 到 解决 。 幸 运 的 是 ， 第 一 个 子 目标 R(1, a) 可 以 得 wie sjy yļz 
到 解决 ， 因 为 在 相应 数据 源 上 的 矿 修饰 符 被 子 目 标的 | 数据 ! [2 ale BH 
修饰 符 所 匹配 。 因 此 ， 我 们 向 R(w, x) 的 数据 源 发 送 一 1|4 5|8 
个 带 w=1 的 查询 ， 且 回应 是 3 个 元 组 的 集合 ， 如 图 | 修饰 符 bf  d[2,3,5]f bw 
10-10 的 第 一 列 所 示 。 
我 们 接 下 来 投影 子 目 标的 关系 到 它 的 第 二 个 成 分 图 10-10 例 10. 14 的 数据 
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上 ， 因 为 只 有 R(1，a) 的 第 二 个 成 分 是 一 个 变量 。 那 么 给 了 我 们 这 个 关系 
a 
2 
3 
4 


ATERA X HTE, 目前 还 没有 属性 ， 只 有 空 元 组 。 其 结果 是 了 变 成 了 上 面 的 关系 。 由 于 
a PERRET, 我们 把 子 目 标 S$ 上 的 修饰 符 从 六 变 为 8/。 

在 这 一 点 上 ,第 二 子 目标 SY(a, 5) 可 以 得 到 解决 。 我 们 通过 把 X 投 影 在 a 上 来 为 第 一 个 组 
成 部 分 获得 绑 定 ， 结 果 为 自身 。 也 就 是 说 ， 我 们 可 以 定位 到 S(x,y) 的 数据 源 ， 带 着 x 的 绑 定 
2、3 和 4。 我 们 不 需要 y 的 绑 定 ， 因 为 数据 源 的 修饰 符 的 第 二 个 成 分 是 户 的 代码 [2, 3, 5] 
表示 我 们 可 以 给 数据 源 的 第 一 个 参数 值 2、3 或 5。 由 于 。 上 有 一 撤 ， 我 们 知道 ， 只 有 相应 的 y 值 
将 被 返回 ， 而 不 是 我 们 在 请 求 里 提供 的 * 的 值 。 我 们 关心 值 2、3 和 4 , 但 4 不 是 5 的 数据 源 上 
的 一 个 可 能 的 值 ， 所 以 我 们 从 不 要 求 它 。 

当 我 们 询问 x =2， 我 们 得 到 一 个 回答 y =4。 我 们 用 我 们 提供 的 值 2 填充 该 回答 ， 得 出 (2， 
4) 是 子 目标 S 的 关系 里 的 一 个 元 组 的 结论 。 类 似 地 ， 当 我 们 询问 x =3 ， 我 们 得 到 y =5 作为 唯一 
的 回答 ， 我 们 把 (3, 5) 加 到 为 子 目标 8 构建 的 元 组 集合 中 去 。 没 有 更 多 的 请 求 在 S 的 数据 源 上 询 
问 ， 因 此 ， 我 们 得 出 结论 ， 有 关子 目标 $ 的 关系 是 


当 我 们 用 先前 的 天 的 值 与 这 个 关系 连接 ， 结 果 恰 好 就 是 上 面 这 个 关系 。 然 而 ， 变 量 a 既 不 出 
现在 头 部 也 不 在 任何 未 解决 的 子 目 标 里 出 现 。 因 此 ， 我 们 把 它 投 影 出 去 ， 所 以 互 变 成 
过 
4 
5 


由 于 2 现在 被 绑 定 ， 我 们 改变 子 目 标 了 上 的 修饰 符 ， 所 以 它 变 成 玫 (8, c)。 现 在 这 最 后 一 个 
子 目标 可 以 得 到 解决 ， 我 们 通过 发 送 请 求 到 T(y, z) 的 数据 源 来 做 到 ， 其 中 y=4 和 y=5。 得 到 的 
回答 让 我 们 得 到 了 以 下 有 关子 目标 了 的 关系 : 


我 们 把 它 与 上 面世 的 关系 连接 ， 然 后 投影 到 ec 属性 上 以 获得 有 关头 部 的 关系 。 也 就 是 说 ， 
mediator 上 查询 的 回答 是 | (6), (7), (8)|}。 口 


10.5.4 在 mediator 上 结合 并 视图 

在 我 们 的 Chain 算法 描述 中 ， 我 们 假设 在 mediator 上 的 Datalog 查询 里 的 每 个 谓词 是 一 种 关于 
一 个 特定 数据 源 上 的 数据 的 “视图 ” 。 然 而 ， 有 若 于 数据 源 可 以 向 有 关 谓 词 的 关系 贡献 元 组 是 很 
常见 的 。 我 们 如 何 为 这 样 一 个 谓词 构建 关系 ， 取 决 于 我 们 期 望 有 关 谓词 的 数据 源 之 间 如 何 互 相 
作用 。 
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最 简单 的 情况 是 ， 我 们 期 望 有 关 谓 词 的 数据 源 包含 有 重复 的 信息 。 在 这 种 情况 下 ， 我 们 可 以 
转向 任何 一 个 数据 源 ， 以 获得 有 关 谓 词 的 关系 。 因 此 这 种 情况 看 上 去 与 只 有 单一 的 有 关 请 词 的 
关系 完全 一 致 ， 但 可 能 有 若干 修饰 符 允 许 我 们 查询 该 数据 源 。 

较为 复杂 的 情况 是 ， 当 一 些 数据 源 中 的 每 一 个 向 谓词 贡献 一 些 元 组 ， 其 他 数据 源 可 能 不 贡 
献 这 些 元 组 。 在 这 种 情况 下 ， 我 们 应 该 向 所 有 数据 源 咨 询 该 谓词 。 但 是 ， 仍 然 要 决定 一 个 策略 选 
择 。 要 么 我 们 可 以 拒绝 回答 查询 ， 除 非 我 们 能 够 咨询 所 有 的 来 源 ; 要 人 么 我 们 可 以 尽 最 大 努力 ， 以 
返回 通过 组 合 数 据 源 获得 的 针对 查询 的 所 有 回答 。 

咨询 所 有 的 数据 源 

如 果 我 们 必须 咨询 所 有 数据 源 来 考虑 一 个 已 解决 的 子 目 标 ， 那 么 当 它 的 关系 的 每 个 来 源 有 
一 个 被 该 子 目标 的 当前 修饰 符 匹 配 的 修饰 符 时 ， 我 们 只 能 解决 一 个 子 目标 。 这 一 规则 是 Chain 算 
法 的 一 个 小 修改 。 然 而 ， 它 不 仅 使 查询 更 难以 回答 ， 而 且 当 任何 数据 源 “ 故 障 " 时 使 查询 不 可 能 
回答 ， 即 使 Chain 算法 提供 了 一 种 可 行 的 顺序 来 解决 子 目 标 。 因 此 ， 随 着 数据 源 数 量 的 增长 ， 这 
一 策略 逐渐 变 得 越 来 越 不 实际 。 

尽 最 大 努力 

在 这 个 假定 下 ， 我们 只 需要 一 个 带 有 匹配 的 修饰 符 的 数据 源 以 解决 子 目 标 。 然 而 ,我们 需要 
修改 Chain 算法 以 重新 访问 每 个 子 目标 ， 当 该 子 目 标 有 新 的 限制 参数 。 我 们 可 能 会 发 现 ， 一 些 此 
前 无 法 被 匹配 的 数据 源 现在 被 带 有 新 的 修饰 符 的 子 目 标 所 匹配 。 

例 10.15 考虑 mediator 查询 


answer(a,c) + Rf (a,b) AND Sff (b,c) 


还 假定 刃 有 两 个 数据 源 ， 一 个 用 修饰 符 六 描述 ， 另 一 个 用 甩 描述 。 类 似 地 ，5 有 两 个 数据 
源 ， 用 广 和 刀 描 述 。 我 们 可 以 通过 使 用 任 一 个 带 修饰 符 太 的 数据 源 开始 ， 假 设 我 们 从 的 数据 
源 开始 。 我 们 查询 这 个 数据 源 ， 并 为 得 到 一 些 元 组 。 

现在 ， 我 们 有 一 些 针 对 变量 的 绑 定 ， 但 也 许 不 是 全 部 。 我 们 现在 可 以 使 用 $ 的 两 个 数据 源 
以 获得 元 组 ， 且 5 的 关系 可 以 设置 为 它们 的 并 集 。 在 这 一 点 上 ， 我 们 可 以 投影 8 的 关系 到 变量 6 
t, 而且 获得 一 些 5- 值 。 可 利用 这 些 信息 查询 R 的 第 二 个 数据 源 ， 带 有 修饰 符 b 的 那个 。 以 这 
种 方式 ， 我 们 可 以 得 到 一 些 额 外 的 R- 元 组 。 只 有 在 这 一 点 上 ， 我们 可 以 连接 尺 和 5 的 关系 ， 且 
投影 到 a 和 <。 上 ， 以 获得 查询 的 最 大 努力 回答 。 m 


10.5.5 习题 


习题 10. 5. 1 描述 被 带 有 修饰 符 RY 的 子 目 标 匹配 的 所 有 的 数据 源 修饰 符 。 
习题 10. 5.2 应 用 Chain 算法 到 mediator 查询 


Answer(a,e) + R(a,b,c) AND S(c,d) AND T(b,d,e) 
针对 以 下 的 有 关 RR、S 和 了 的 数据 源 上 的 修饰 符 。 如 果 对 一 个 谓词 有 多 于 一 个 修饰 符 ， 任 一 个 都 可 以 被 
使 用 。 
a) RTBF, SFe, got TISS, 
b) Riff, SF, TSF THOS, 
c) Rifb, Sfb Pho Tbff, 
在 每 一 种 情况 下 : 
i 指出 所 有 可 能 的 子 目标 可 以 被 解决 的 顺序 。 
ii. Chain 算法 是 否 产生 查询 的 回答 ? 
ii, 给 出 计算 每 一 步 的 中 间 关 系 X 以 及 查询 结果 的 关系 -代数 运算 的 序列 。 
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上 了 习题 10. 5. 3 ”假设 对 于 习题 10. 5. 2 的 mediator 查询 ， 每 个 谓词 是 被 两 个 数据 源 的 并 集 所 定义 的 视图 。 对 于 
每 个 谓词 ， 数 据 源 之 一 有 一 个 全 /的 修饰 符 。 其 他 数据 源 有 以 下 修饰 符 : R”, Sm 7。 找到 一 个 尽 最 大 
努力 的 数据 源 请 求 序列 ， 它 将 产生 所 有 可 以 从 这 些 数据 源 获得 的 mediator 查询 的 回答 。 

1 习题 10. 5. 4 证明， 如 果 有 任何 子 目标 解决 方案 的 序列 将 解决 所 有 的 子 目 标 ， 那 么 Chain 算法 将 找到 其 中 
一 个 。 提 示 : 请 注意 ， 如 果 一 个 子 目 标 可 以 在 某 一 个 步骤 解决 ， 那 么 如 果 它 没有 被 选择 作为 解决 方案 ， 
它 仍然 可 以 在 下 一 个 步 又 得 到 解决 。 


10.6 以 局 部 作为 视图 的 mediator 


到 目前 为 止 所 讨论 的 mediator 被 称 为 以 全 局 作为 视图 (gLobal-as-view，GAYV ) 的 mediator。 这 种 全 局 
数据 (也 就 是 mediator 能 够 查询 的 数据 ) 如 同一 个 视图 ; 尽管 物理 上 并 不 存在 , 但 根据 需要 ， 部 分 
数据 能 通过 向 数据 源 查询 而 被 mediator 创建 出 来 。 

在 本 节 中 ， 我 们 介绍 另 一 种 连接 数据 源 和 mediator 的 方法 。 在 以 局 部 作为 视图 (local-as-view， 
LAV) 的 mediator 中 ， 我 们 在 mediator 中 定义 全 局 谓词 ， 但 我 们 并 不 以 源 数据 的 视图 的 方式 定义 这 
些 谓词 。 相 反 ， 我 们 为 每 个 数据 源 定 义 一 个 或 多 个 表达 式 。 这 些 表达 式 涉 及 那些 描述 数据 源 能 生 
成 的 元 组 的 全 局 谓词 。 为 了 回答 查询 ，mediator 利用 数据 源 所 提供 的 视图 ， 通 过 发 现 一 切 可 能 的 
方法 来 构建 查询 。 


10.6.1 LAV mediator 的 动机 

在 许多 应 用 中 ,GAV mediator 很 容易 被 创建 。 你 决定 好 mediator 将 支持 的 全 局 谓词 或 关系 ， 
以 及 对 于 每 个 数据 源 ， 你 考虑 它 能 支持 哪些 谓词 ， 以 及 它 能 如 何 被 查询 。 也 就 是 说 ， 你 为 每 一 个 
数据 源 中 的 每 个 谓词 确定 其 修饰 符 集合 。 例 如 ， 在 我 们 的 Arrdvark 汽车 的 例子 中 ， 如 果 我 们 决定 
想 要 mediator 上 Autos 和 Options 谓词 ， 我 们 则 要 找到 一 种 方法 ， 能 够 在 每 个 代理 商 的 数据 源 查 询 
这 些 概念 ， 并 且 使 得 mediator 上 的 Autos 和 Options 谓词 代表 数据 源 提供 的 内 容 的 并 集 。 每 当 我 们 
需要 这 两 个 或 其 中 一 个 谓词 来 回答 mediator 的 查询 时 ， 我 们 对 每 个 数据 源 都 做 出 请 求 以 获得 它们 
的 数据 。 

然而 ， 在 有 些 情况 下 ， 我 们 想 要 提供 给 mediator 的 用 户 的 内 容 以 及 数据 源 提 供 的 内 容 之 间 的 
关系 更 加 微妙 。 我 们 来 看 一 个 例子 ， 在 这 个 例子 中 mediator 试图 提供 一 个 谓词 Parle, p), RR 
着 p 是 c 的 父亲 或 母亲 。 正 如 所 有 的 mediator 一 样 ， 这 个 谓词 代表 着 一 个 抽象 概念 一 一 在 本 例 中 ， 
即 曾 经 存在 过 的 所 有 child-parent 事实 的 集合 一 一 并 且 数 据 源 将 提供 任何 它们 所 知道 的 有 关 child- 
parent 事实 的 信息 。 即 便 都 放 在 一 起 ， 这 些 数据 源 也 有 可 能 不 知道 世界 上 的 每 个 人 ， 更 别提 曾经 
活着 的 每 个 人 。 

如 果 每 个 来 源 都 拥有 一 些 child-parent 的 信息 ， 并 且 没 有 与 mediator 相关 的 其 他 信息 的 话 ， 生 
活 会 简单 些 。 然 后 ， 我 们 所 需要 做 的 所 有 事情 就 是 决定 如 何 去 查 询 每 一 个 数据 源 ， 不 论 它 们 能 提 
供 什 么 事实 。 然 而 ， 假 设 我 们 有 一 个 祖父 母 协会 维持 的 数据 库 ， 这 个 数据 库 并 不 提供 任何 child- 
parent 的 事实 ， 但 其 却 提 供 child-grandparent 的 事实 。 我 们 永远 不 能 用 这 个 数据 源 来 帮助 回答 有 
关 某 人 的 父母 或 孩子 的 查询 。 但 我 们 却 能 够 运用 该 数据 源 来 帮助 回答 这 样 的 mediator 查询 ， 即 
使 用 Par 谓词 多 次 来 询问 某 个 人 的 祖父 母 ， 或 者 他 们 的 曾祖 父母 或 者 其 他 人 与 人 之 间 的 复杂 
关系 。 

如 果 我 们 的 目标 是 产生 一 个 Par 关系 ， 则 GAV mediator 完全 不 允许 我 们 使 用 一 个 祖父 母 数 
据 源 。 同 时 在 mediator 上 产生 一 个 父母 谓词 和 一 个 祖父 母 谓 词 是 可 能 的 ， 但 这 样 会 令 用 户 困 
惑 ， 而 且 会 要 求 我 们 解决 如 何 将 祖父 母 信息 从 所 有 的 数据 源 ， 包 括 那些 只 允许 child-parent 事 
实 查询 的 数据 源 中 提取 出 来 的 问题 。 然 而 ，LAV mediator 允许 我 们 说 由 某 个 特定 的 数据 源 来 提 
供 祖父 母 信息 。 些 外，LAV mediator 相关 的 技术 使 我 们 能 发 现 如 何 及 何 时 在 给 定 的 查询 中 使 用 
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该 数据 源 。 
10.6.2 LAV mediator 的 术语 

LAV mediator 总 是 用 一 种 逻辑 的 形式 来 定义 ， 这 种 逻辑 形式 作为 一 种 语言 来 定义 视图 。 在 我 
们 的 介绍 中 ， 我 们 将 会 使 用 Datalog。mediator 上 的 查询 和 对 数据 源 进行 描述 的 查询 (视图 定义 ) 都 
会 是 单个 Datalog 规则 。 单 个 Datolog 规则 的 查询 通常 被 称 为 合 取 查询 (conjunctive query) ， 我 们 将 
会 在 此 使 用 该 术语 。 

一 个 LAV mediator 有 一 组 全 局 谓词 (global predicate) ， 这 些 谓词 被 用 作 mediator ARIS A 
标 。 也 有 其 他 的 定义 视图 的 合 取 查 询 ， 即 它们 每 个 的 头 部 都 有 一 个 独特 的 视图 谓词 作为 视图 的 
名 字 。 每 个 视图 定义 都 有 一 个 由 全 局 谓词 组 成 的 主体 ， 并 且 与 创建 视图 所 依据 的 特定 的 数据 源 
相 联系 。 我 们 假定 每 个 视图 能 够 由 一 个 全 自由 的 修饰 符 被 构建 起 来 。 如 果 能 力 受 限 ， 我 们 可 以 用 
Chain 算法 来 决定 使 用 视图 的 解决 方法 是 否 可 行 的 。 

假设 我 们 被 给 予 一 个 合 取 查询 0， 这 个 查询 的 子 目标 是 mediator 上 定义 的 谓词 。 我 们 需要 找 
出 所 有 的 解决 方法 一 一 合 取 查询 ， 其 主体 由 视图 谓词 组 成 , 但 其 能 够 被 “扩展 ”来 生成 一 个 涉及 
全 局 谓词 的 合 取 查询 。 而 且 ， 这 种 合 取 查询 必须 只 生成 也 能 被 Q 所 生成 的 元 组 集合 。 我 们 说 这 
样 的 扩展 被 包含 在 C 中 。 举 个 例子 能 够 帮助 理解 这 些 复杂 的 概念 ， 在 此 之 后 我 们 将 正式 给 出 “ 扩 
E” 的 定义 。 

例 10. 16 假设 有 一 个 全 局 谓词 Par(c，p)， 意 思 是 p 是 c 的 父亲 或 母亲 。 还 有 一 个 能 产生 
一 些 可 能 的 父母 事实 的 数据 源 ， 它 的 视图 被 下 面 的 合 取 查询 所 定义 


Vitc,p) + Par(c,p) 
另 一 个 数据 源 能 产生 一 些 祖父 母 事 实 ， 它 的 视图 由 以 下 的 合 取 查询 所 定义 
Vo(c,g) + Par(c,p) AND Par(p,g) 
我 们 在 mediator 上 的 查询 会 请 求 能 够 从 这 些 数据 源 获得 的 曾祖 父母 信息 ， 即 mediator 查询 是 
Q(w,z) + Par(w,x) AND Par(x,y) AND Par(y,z) 

我 们 可 能 如 何 回答 这 个 查询 呢 ? 数据 源 视图 V 直接 贡献 于 父母 谓词 ， 因 此 ， 作 为 一 种 显 而 

易 见 的 解决 方法 ， 我 们 可 使 用 它 3 次 
Q(w,z) <— Vi (w,x) AND Vi (x,y) AND ViCy,z) 

然而 ， 也 有 可 能 存在 生成 更 多 答案 的 其 他 解决 方法 ， 因 此 ， 必 须 作为 回答 该 查询 的 逻辑 查询 

计划 的 一 部 分 。 尤 其 是 ， 我 们 可 以 用 视图 V, 来 获得 祖父 母 事实 ， 这 些 祖父 母 事实 中 的 一 部 分 也 


许 不 能 通过 使 用 V 中 的 两 个 父母 事实 推导 出 。 我 们 可 以 用 一 次 生成 一 代 ， 然 后 用 VKE 
成 两 代 ， 在 这 种 解决 方法 中 





7 
Q(w,z) +- Vi(w,x) AND Vo(x,z) 


或 者 ， 我 们 可 以 先 用 Vv 再 用 V,, a0 
Q(w,z) + Va(w,y) AND Vi (y,z) 


这 些 就 是 我 们 需要 的 解决 方法 。 它 们 的 并 集 是 我 们 从 数据 源 V AV, 中 能 够 获得 的 所 有 的 曾 
祖父 母 事实 。 这 里 仍然 有 很 多 需要 解释 的 。 为 什么 这 些 解决 方法 保证 仅 生成 该 查询 的 答案 ? 我 们 
如 何 区 分 一 个 解决 方法 是 否 是 某 个 查询 的 答案 的 一 部 分 ? 我 们 如 何 找到 某 个 查询 所 有 有 用 的 解 
决 方案 ? 在 下 一 节 中 ,我们 将 对 这 些 问题 一 一 回答 。 口 
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10.6.3 扩展 解决 方案 

给 定 一 个 查询 0， 某 解决 方案 5 的 主体 的 子 目标 是 一 组 视图 ， 并 且 每 个 视图 了 都 由 一 个 将 该 
视图 作为 头 部 的 合 取 查 询 来 定义 。 只 要 我 们 仔细 不 混淆 不 同 主体 中 的 变量 名 ， 我 们 就 可 以 用 了 的 
合 取 查 询 的 主体 来 蔡 代 使 用 谓词 了 的 $ 中 的 子 目标 。 一 旦 我 们 用 规则 主体 来 蔡 换 $ 中 的 视图 ， 主 
体 就 仅仅 包含 全 局 谓词 了 。 这 种 扩展 的 解决 方法 能 与 8 相 比较 ， 来 看 看 是 否 从 解决 方法 S 中 产 
生 的 结果 必定 是 查询 8 对 应 的 答案 。 比 较 的 方法 我 们 将 稍 后 探讨 。 

然而 ， 首 先 我 们 必须 清楚 这 种 扩展 算法 。 假 定 有 一 个 解决 方案 S$， 它 拥有 子 目 标 V(a,，a,， 
…，Q,)。 这 里 的 a 可 以 是 任何 变量 或 者 常数 。 并 且 有 可 能 两 个 或 更 多 的 a, 事实 上 是 相同 的 变 
量 。 用 下 面 形式 定义 视图 V， 其 中 B 代表 整个 主体 部 分 。 

V(bi,bz,... ,bn)t-B 


我 们 可 以 假设 b 是 各 不 相同 的 变量 ， 因 为 一 个 视图 并 不 需要 两 个 完全 一 样 的 成 分 ， 也 不 需 
要 常量 成 分 。 我 们 能 用 拥有 B 所 有 子 目 标的 8 主体 的 形式 来 替换 解决 方案 5 H Va, a, 
a,)， 但 是 其 中 变量 可 能 被 更 改 。 更 改 B 的 变量 的 规则 是 : 

1. 首先 ， 确 定 8 的 局 部 交 量 一 一 这 些 变量 出 现在 主体 部 分 ,但 不 出 现在 头 部 。 注 意 在 合 取 
查询 中 ， 局 部 变量 能 够 被 任何 其 他 变量 所 替换 ， 只 要 用 于 替换 的 变量 并 不 出 现在 合 取 查询 中 其 
他 地 方 。 这 与 在 程序 中 为 局 部 变量 替换 不 同 的 名 字 的 思想 是 一 致 的 。 

2. WRA B 的 任何 局 部 变量 出 现在 8B 或 者 S 中 ,将 这 样 的 每 一 个 变量 都 用 没有 在 V 规 则 或 5 
中 出 现 过 的 截然 不 同 的 新 变量 替代 。 

3. 在 8 的 主体 中 ， 用 a PREA b, i=1, 2, …, no 

例 10. 17 假设 有 视图 定义 如 下 

V(a,b,c,d) + E(a,b,x,y) AND F(x,y,c,d) 


进一步 假设 某 解决 方案 5 的 主体 有 子 目标 V(x, y, 1, x)o 
在 了 的 定义 中 的 局 部 变量 是 x 和 y， 因 为 它们 都 没有 出 现在 头 部 。 我 们 需要 改变 两 者 ， 因 为 
他 们 处 于 我 们 将 要 替换 的 子 目 标 中 。 假 设 e 和 是 5 其 他 地 方 都 没 出 现 的 变量 名 。 我 们 可 重 写 了 
规则 的 主体 部 分 如 下 ， 
V(a,b,c,d) + E(a,b,e,f) AND F(e,f,c,d) 


接 下 来 ,我 们 必须 替换 V 子 目标 的 参数 4a、5、c 和 d。 相 应 的 方法 是 a 和 4 Pix, b 变 为 y， 
并 且 。 变 成 常量 1。 这样 我 们 蔡 换 V(x，y，1 ,x%) 的 两 个 子 目标 为 E(x, y, e, AFCE, f, 1, 
%)o 口 

这 个 扩展 过 程 本 质 上 就 是 以 上 描述 的 将 解决 方法 S 的 每 个 子 目 标 进 行 雁 换 的 过 程 。 然 而 ， 这 
里 有 一 点 额外 警告 ， 我 们 必须 注意 ， 既 然 我 们 可 能 会 替换 掉 一 些 视图 定义 中 的 局 部 变量 ， 并 且 事 
实 上 可 能 需要 创建 一 个 视图 定义 的 好 几 种 形式 (如 果 5 对 应 相同 的 视图 谓词 有 着 若干 子 且 标 ) ， 
我 们 必须 使 用 独特 的 局 部 变量 一 一 即 那些 不 会 在 其 他 震 换 过 程 中 或 S 本 身 出 现 的 变量 。 只 有 这 样 
我 们 才能 确保 ， 扩 展 时 不 会 对 两 个 需要 区 分 的 变量 使 用 相同 的 名 字 。 

例 10. 18 让 我 们 重新 开始 例 10. 16 中 的 讨论 ， 我们 曾 有 视图 定义 如 下 : 


Vi(c,p) «+ Par(c,p) 
Vo(c,g) + Par(c,p) AND Par(p,g) 


一 个 建议 的 解决 方案 5 是 
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QCw,z) + Vi (w,x) AND Vo(x,z) 


我 们 来 扩展 这 个 解决 方案 。 第 一 个 有 谓词 V 的 子 目标 容易 扩展 ， 因 为 VvV 规则 中 没有 局 部 变 
量 。 我 们 用 w Al x 相应 替换 A pp. REV, 规则 的 主体 就 变 成 Par(w，x)。 这 个 子 目 标 将 会 在 5 
中 用 于 替换 V (w, x) 。 
我 们 也 必须 替换 V, 子 目 标 ， 这 个 规则 有 着 局 部 变量 p。 然 而 ， 既 然 p 没有 出 现在 5S 中 ， 也 没 
有 作为 局 部 变量 在 其 他 替换 过 程 中 被 使 用 ， 我 们 可 以 自由 地 让 2 保持 原状 。 因 此 ， 我 们 只 需要 用 
x 和 z 相应 地 来 替换 变量 c Al g. FEV, 规则 中 ， 这 两 个 子 目标 就 变 成 Par(x, p) 和 Par(p, z). 4 
用 这 两 个 子 目标 来 蔡 换 5 中 的 六 (x，2) 时 ， 我 们 已 经 创建 出 $ 的 完整 扩展 : 
Q(w,z) + Par(w,x) AND Par(x,p) AND Par(p,z) 


注意 到 这 个 扩展 式 实 际 上 和 例 10.16 中 的 查询 是 一 样 的 。 唯 一 的 区 别 在 于 那个 查询 使 用 了 局 
部 变量 y， 而 这 里 的 扩展 式 用 的 是 p。 既 然 局 部 变量 的 名 称 并 不 影响 结果 ， 可 见解 决 方法 S 是 这 
个 查询 的 答案 。 然 而 ， 这 不 一 定 完全 正确 。 该 查询 是 寻找 所 有 曾祖 父母 的 事实 ， 而 这 个 扩展 式 S 
所 能 说 的 只 是 它 仅 提供 回答 该 查询 的 事实 。$ 可 能 并 不 生成 所 有 可 能 的 答案 。 例 如 ， 灵 的 数据 源 
甚至 很 有 可 能 是 空 的 ， 这 种 情况 下 ， 解 决 方法 $ 就 什么 结果 也 不 生成 ， 即 使 其 他 解决 方法 可 能 生 
成 一 些 答案 。 口 


10.6.4 合 取 查询 的 包含 

为 了 使 一 个 合 取 查询 S 成 为 给 定 的 mediator 查询 8 的 解决 方案 ,不 论 EE 和 0 的 主体 中 的 谓词 
呈现 出 的 关系 如 何 ，S 的 扩展 (我 们 称 它 为 E) 必 须 只 产生 0 能 产生 的 答案 。 如 果 是 这 样 ， 我 们 就 
AUB ECO, 

有 一 个 算法 可 以 判断 是 否 ECQ; 在 介绍 完 下 面 的 重要 概念 之 后 ， 我 们 将 看 看 这 个 测试 过 程 。 
一 个 从 0 到 巨 的 包含 映射 (containment mapping) 是 指 从 Q 的 变量 到 的 变量 和 常数 的 一 个 函数 7， 
使 得 : 

1. 如 果 * 是 8 头 部 的 第 i 个 变量 ,那么 7(x) 就 是 EE 头 部 的 第 i 个 变量 。 

2. 为 了 添加 规则 ， 使 得 对 于 任何 常量 c， 都 有 r(c) =c。 如 果 P(x,，zx,，…，%,) 是 8 的 一 个 
FAH, ABA P(r(x,), lm), ，…， 7(%,)) 是 E 的 一 个 子 目 标 。 

例 10. 19 考虑 下 面 两 个 合 取 查询 : 

Qi: H(x,y) + ACx,z) AND B(z,y) 
Qo: H(a,b) + ACa,c) AND B(d,b) AND A(a,d) 

我 们 声称 Q GQ 。 为 了 证 明 这 一 点 ， 我 们 提供 以 下 的 包含 映射 ; r(x) =e, rly) =b, FE 
7(z) =d。 注 意 到 当 我 们 应 用 这 种 替换 时 ，0Q, 的 头 部 变 成 了 H(a, 5) ， 这 个 也 是 @ 的 头 部 。Q, 的 
第 一 个 子 目 标 变 成 4(a，d) ， 这 同时 是 Q 的 第 三 个 子 目 标 。 同 样 ，Q, 的 第 二 个 子 目标 变 成 Q， 
的 第 二 个 子 目 标 。 这 证 明 有 一 个 从 Q, BQ, 的 映射， 并且 因 此 SEQ. ER, 0 没有 子 目标 能 
够 映射 到 Q, 的 第 一 个 子 目 标 ， 但 包含 映射 的 定义 并 不 要 求 这 一 点 。 

令 人 惊讶 的 是 ， 从 Q, 到 0, 也 有 一 个 包含 映射 ， 所 以 这 两 个 合 取 查询 实际 上 是 相等 的 。 即 不 
仅 是 一 个 被 另 一 个 包含 ， 而 且 依 据 任 何 关系 4 和 BB， 均 能 为 关系 五 生成 完全 相间 的 元 组 集合 。 

Q, BQ, 的 包含 映射 是 p(a) =x, p(b) =y, ple) =p(d) =z 在 这 种 映射 下 ，@: 的 头 部 变 成 了 
Q 的 头 部 ，Q, 的 第 一 个 和 第 三 个 子 目 标 变 成 了 O, 的 第 一 个 子 目 标 ， 并 且 @. 的 第 二 个 子 目 标 变 
成 了 Q, 的 第 二 个 子 目标 。 

两 个 看 起 来 差别 如 此 大 的 合 取 查询 是 等 值 的 ， 这 一 点 可 能 显得 比较 奇怪 。 下 面 是 直观 的 解 

释 。 考 虑 4 和 8B 是 一 个 图 中 两 种 不 同 颜 色 的 边 。 然 后 0, 要 求 找 出 点 对 x 和 7y， 满 足 条 件 从 * 到 某 
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点 z 之 间 是 4 边 , 从 z 到 7y 之 间 是 召 边 。0: 分 别 使 用 其 第 二 个 和 第 三 个 子 目标 来 请 求 相 同 的 查 
询 ， 尽 管 它 使 用 名 字 a, b, cH x, y, z Ab, Q 通过 其 第 一 个 子 目 标 ， 即 从 点 a 到 某 处 
(点 c) 有 一 条 边 ， 似 乎 有 着 附加 的 条 件 。 但 我 们 已 经 知道 从 a 到 某 点 即 d 之 间 有 一 条 边 。 也 就 是 
说 ， 由 于 这 里 对 < 没有 其 他 限制 , 我们 总 可 以 自由 地 像 对 d 那样 ， 为 c 使 用 相同 的 结 点 。 口 
例 10.20 这 里 有 两 个 查询 ， 和 例 10. 19 中 的 查询 相似 但 不 完全 相同 : 
Py: H(x,y) + A(x,z) AND A(z,y) 
Po: H(a,b) + A(a,c) AND A(c,d) AND A(d,b) 
直观 地 ， 如 果 我 们 把 A 看 作 代表 一 个 图 中 的 边 ， 那 么 P, 请 求 的 是 两 点 之 间 的 路 径 ， 而 P, 请 求 的 
是 三 点 之 间 的 路 径 。 我 们 不 能 期 待 两 者 中 的 任何 一 个 能 够 被 对 方 包含 ， 事 实 上 ， 包含 映 射 的 测试 
也 证 实 了 这 个 事实 。 
考虑 从 P BYP, 的 一 个 可 能 的 包含 映射 +。 因 为 头 部 的 条 件 ， 我们 知道 7(x) =a 并 且 7(y) = 
b, HPA z 映射 到 那 一 个 呢 ?” 既 然 我们 已 经 知道 7(x) =a， 第 一 个 子 目标 4(*，z) 只 能 被 映射 到 了 P， 
的 A(a，c)。 这 意味 着 7(z) 一 定 是 c。 然 而 ,既然 7(y) =b, P, 的 子 目标 4(z，y) 只 能 变 成 P, 的 
A(d, 5)。 这 意味 着 7(z) 一 定 是 d。 但 是 z 只 能 映射 到 一 个 值 上 ， 不 可 能 同时 映射 到 c 和 dd。 结论 
就 是 从 P, 到 P, 的 包含 映射 并 不 存在 。 
相似 的 论证 过 程 可 以 显示 没有 从 P, 到 P 的 包含 了 映射， 我 们 把 这 个 留 作 习 题 。 口 


包含 映射 测试 的 复杂 度 
判定 是 否 存在 一 个 合 取 查 询 到 另 一 个 合 取 查询 的 包含 映射 是 NP 完全 问题 。 然 而 事实 上 ， 
判定 一 个 包含 映射 是 否 存在 是 非常 容易 的 。 合 取 查 询 的 子 目 标 和 变量 实际 很 少 。 另 外 ， 对 于 
那 种 相同 谓词 的 子 目标 不 多 于 两 个 的 合 取 查询 类 型 一 一 一 种 很 常见 的 情形 一 一 包含 映射 的 存 
在 有 一 个 线性 时 间 的 测试 。 


下 面 的 定理 表述 了 包含 映射 的 重要 性 : 

。 WR QO, MO, 是 合 取 查 询 ， 那 么 E, MERIA Q, NO, 有 着 包含 映射 。 

注意 包含 映射 的 方向 与 包含 的 方向 相反 ; 即 , 包含 映射 是 从 生成 更 大 答案 集合 的 合 取 查询 
到 生成 小 一 些 的 被 包容 集合 的 合 取 查 询 。 


10. 6. 5 为 什么 包含 映射 测试 有 效 

我 们 需要 讨论 两 点 。 首 先 ， 如 果 存 在 一 个 包含 上 映射 ， 为 什么 一 定 会 有 合 取 查 询 的 包含 ? 第 
二 ， 如 果 存 在 包含 ， 为 什么 必须 有 包含 映射 呢 ? 我 们 不 给 出 形式 化 的 证 明 ， 但 将 粗略 论证 一 下 。 

首先 ， 假 设 从 @ 到 @ 有 一 个 包含 映射 +。 在 《数据 库 系 统 基础 教程 ( 原 书 第 3 版 )》5. 3.4 节 
中 ， 当 我 们 将 8, 应 用 于 一 个 数据 库 ， 我 们 寻找 8, 的 所 有 变量 的 替换 o, REET 0, 所 有 的 关 
系 子 目标 都 成 为 该 数据 库 相 应 关系 中 的 元 组 。 对 其 头 部 的 替换 变 成 8, 返回 的 元 组 :。 如 果 我 们 组 
成 7 以 及 oo， 就 有 一 个 从 Q, 变量 到 生成 与 @, 头 部 相同 的 元 组 上 的 数据 库 元 组 之 间 的 上 映射 。 因 此 ， 
对 于 任何 一 个 给 定 的 数据 库 ， 所 有 Q, 能 产生 的 也 能 够 被 Q, 产生 。 

反之 , 假设 8, SQ,， 也 就 是 说 ,在 任何 数据 库 D 上 ， 所 有 Q, 能 够 产生 的 也 能 被 0, 产生 。 
构建 一 个 只 有 Q, 子 目标 的 特殊 数据 库 D。 即 假装 Q, 的 变量 都 是 不 相同 的 常数 ， 并 且 对 于 每 个 子 
目标 P(a,，a,，…，4,)， 将 元 组 (a,，a,，…，0,) 放 入 P 的 关系 中 。D 的 关系 中 没有 其 他 元 组 。 

当 Q, 应 用 到 数据 库 D 时 ， 当 然 由 Q, 的 头 部 变量 组 成 的 元 组 便 生 成 了 。 由 于 0; C0,，0Q, 应 
用 到 DD 时 也 必然 生成 @ 的 头 部 。 我 们 再 次 使 用 《数据 库 系统 基础 教程 ( 原 书 第 3 版 )》5. 3.4 节 中 
如 何 应 用 合 取 查询 到 一 个 数据 库 的 定义 。 这 个 定义 告诉 我 们 ，D 的 常量 被 替换 成 0, 的 变量 ,使 
得 0, 的 每 一 个 子 目 标 转变 成 D 的 元 组 ， 并 且 将 0, 的 头 部 转变 成 8, 头 部 的 元 组 。 因 此 ， 这 种 替 
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换 事实 上 是 一 种 包含 映射 。 


10.6.6 发 现 mediator 查询 的 解决 方法 

我 们 还 有 一 个 问题 有 待 解决 。 我 们 被 给 予 一 个 mediator 查询 @， 并 且 我 们 需要 找到 所 有 解决 
方案 $， 使 得 S 的 扩展 EE 能 够 被 0 包含 。 但 是 从 使 用 任意 数目 的 子 目 标 和 变量 的 视图 能 构建 出 无 
穷 数 目的 解决 方案 S$。 下 列 定理 限制 我 们 的 搜索 范围 。 

。 如 果 查 询 GQ 有 个 子 目标 ,那么 任何 解决 方案 的 任何 答案 都 能 被 有 着 最 多 个 子 目 标的 

解决 方案 产生 。 

这 个 理论 经 常 被 称 为 LMSS 定理 ， 它 给 了 我 们 一 个 尽管 指数 级 但 有 限 的 任务 去 找 解 决 方法 
的 充分 集合 。 还 有 相当 多 的 工作 使 得 这 项 检测 在 一 般 情形 下 更 加 有 效 。 

例 10.21 回顾 例 10. 16 中 的 查询 


Qi: Q(w,2) + Par(w,x) AND Par(x,y) AND Par(y,z) 


这 个 查询 有 三 个 子 目 标 ， 所 以 我 们 不 必 找 多 于 三 个 子 目 标的 解决 方案 。 我 们 建议 的 一 个 解 
决 方案 是 


Siz: Q(w,z) + Vi(w,x) AND Vo (x,2z) 


这 个 解决 方案 只 有 两 个 子 目标 ， 它 的 扩展 包含 在 查询 中 。 因 此 ， 我 们 所 估计 的 回答 查询 的 解 
决 方案 集合 需要 包括 它 。 
然而 ， 考 虑 以 下 解决 方案 : 
So: Q(w,z) + Vi(w,x) AND Vo(x,z) AND Vi(t,u) AND Vo (u,v) 


它 有 四 个 子 目 标 ， 通 过 LMSS 定理 ， 我 们 知道 并 不 需要 考虑 这 个 解决 方案 。 然 而 ， 它 确实 是 
一 个 解决 方案 ， 因 为 其 扩展 E 包含 在 查询 0, 之 中 。 


Ey: Q(w,z) + Par(w,x) AND Par(x,p) AND Par(p,z) AND Par(t,u) 
AND Par(u,q) AND Par(q,v) 


为 了 看 清原 因 ， 使 用 从 w, x 和 = 映射 到 自身 以 及 y 映射 到 p 的 包含 映射 。 
SAM, E, 也 被 更 小 的 解决 方案 S 的 扩展 E, 所 包含 。 回 顾 例子 10. 18 中 S, 的 扩展 


Ei: Q(w,z) + Par(w,x) AND Par(x,p) AND Par(p,z) 


Mu E 的 每 个 变量 都 发 送 至 , 的 相同 变量 的 包含 映射 ， 我们 可 以 立即 看 到 E, CE o A 
th, Q, 的 每 一 个 由 5, 生成 的 答案 也 能 由 S, 生成 。 顺 便 可 以 注意 到 ，5, 实际 上 是 5, 的 两 个 子 目 
标 用 不 同 变量 重复 而 成 的 S 。 口 

原则 上 ， 当 运用 LMS 定理 时 ， 我 们 必须 考虑 大 量 的 可 能 解决 方案 ， 其 查询 规模 是 指数 级 
的 。 我 们 不 仅 必 须 考虑 子 目 标的 谓词 选择 ， 也 必须 考虑 哪些 子 目 标的 哪些 变量 有 着 相同 的 变量 。 
注意 在 合 取 查询 时 ， 变 量 的 名 称 并 不 重要 ， 但 哪些 变量 集合 拥有 相同 变量 却 重 要 。 正 如 我 们 在 第 
5 章 所 认识 到 的 ， 大 多 数 查询 过 程 不 管 怎样 在 最 坏 情 况 下 查询 规模 上 都 是 指数 级 的 。 另 外 ， 通 过 
观察 定义 视图 的 合 取 查询 的 结构 ， 已 有 一 些 有 效 的 手段 来 限制 解决 方案 的 搜索 范围 。 我 们 将 不 
会 在 此 深入 下 去 ,但 下 面 是 一 个 简单 又 很 有 效 的 思想 。 

。 如 果 定 义 视图 的 合 取 查询 其 主体 有 一 个 谓词 P， 且 PP 没有 在 mediator 查询 的 主体 中 出 

现 。 那 么 我 们 不 需要 考虑 任何 使 用 了 的 解决 方法 。 
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10.6.7 为 什么 LMSS 定理 能 成 立 

假设 我 们 有 一 个 有 个子 目标 的 查询 @， 有 一 个 解决 方案 $ 有 超过 nn 个 子 目标 。S 的 扩展 EE 
必须 包含 在 查询 8 中 ， 这 意味 着 有 一 个 从 8 到 扩展 E 的 包含 映射 如 图 10-11 Bras, WF 8 中 
有 个 子 目 标 (图 10-11 中 n=2)， 则 该 包含 映射 将 O 的 子 目标 变 成 扩展 E 的 最 多 nn 个子 目 标 。 
此 外 , 的 这 些 子 目标 来 自 解决 方案 的 最 多 n 个 子 目标 。 

假设 我 们 从 5 者 除了 所 有 在 包含 映射 下 、 其 扩展 不 是 8 的 任何 子 目标 的 目标 的 子 目 标 。 我 
们 将 有 一 个 新 的 合 取 查询 8 ， 有 至 多 m” 个 子 目标 。 现 在 $ 还 必须 是 0 的 一 个 解决 方案 ， 因 为 在 图 
10-11 中 表示 ECO 的 同样 的 包含 有 映射， 也 表示 ECO, Hb EE 5' 的 扩展 。 

我 们 必须 说 明 另 外 一 件 事 : 即 由 $ 提供 的 任何 回答 ， 也 由 S 提供。 也 就 是 说 ，SSS'。 但 有 
一 个 明显 的 从 5' 到 5 的 包含 映射 : EFRA. AE, AH 0 的 解决 方案 中 不 需要 解决 方案 5。 


解决 方案 S A(..-) Bi...) tae Z(...) 
扩展 EE MK...) NC...) 
查询 O Mt...) N(...) 


图 10-11 为 什么 一 个 有 个 子 且 标的 查询 不 能 需要 一 个 有 超过 个子 目标 的 解决 方案 


10.6.8 习题 
1 习题 10. 6. 1 对 于 例 10. 16 中 的 mediator 和 视图 ， 找 出 所 有 曾 - 曾 -祖先 查询 所 需 的 解决 方案 : 
Q(x,y) + Par(x,a) AND Par(a,b) AND Par(b,c) AND Par(c,y) 

1 习题 10. 6.2 说 明 在 例 10.20 中 没有 从 P, 到 P, 的 包含 映射 。 

! 习 题 10.6.3 说 明 如 果 合 取 查 询 0, 是 从 合 取 查询 OC, 通过 删除 一 个 或 多 个 0, 的 子 目标 构造 的 ， 那 么 
Q, CQ,o 

习题 10. 6. 4” 找 出 在 以 下 4 个 合 取 查询 中 的 所 有 包含 : 

Qi: P(x,y) + QCx,a) AND Q(a,b) AND QCb,y) 
Qe: P(x,y) + Q(x,a) AND Q(a,1) AND Q(1,b) AND Q(b,y) 
Q3: P(x,y) «+ Q(x,a) AND Q(b,c) AND Q(d,y) AND Q(x,b) AND 


Q(a,c) AND Q(c,y) 
Qa: P(x,y) © Q(x,a) AND Q(a,b) AND Q(b,c) AND Q(c,y) 


10.7 实体 解析 


我 们 现在 将 考虑 一 个 在 很 多 信息 集成 场景 必须 解决 的 问题 。 我 们 默认 地 假定 数据 源 在 实体 
或 值 的 表示 上 一 致 ， 或 者 至 少 通过 一 个 包装 器 ， 执 行 数据 转换 是 可 能 的 。 因 此 ， 我 们 并 不 害怕 两 
个 报告 温度 的 数据 源 ， 一 个 用 华氏 温度 ， 另 一 个 用 摄氏 温度 。 我 们 也 不 害怕 数据 源 支 持 像 “ 员 
工 " 的 概念 ， 但 有 稍微 不 同 的 员工 组 。 

然而 ， 会 发 生 的 是 ， 如 果 两 个 数据 源 不 仅 有 不 同 的 员工 组 ， 且 尚 不 清楚 是 否 两 个 数据 源 的 记 
录 代 表 同 一 个 个 体 ? 出 现 差异 的 原因 可 以 有 很 多 ， 比 如 拼写 错误 。 在 本 节 中 ， 我们 将 首先 讨论 为 
什么 实体 解析 (entity resolution ) 一 一 确定 是 否 两 个 记录 或 元 组 代表 同一 个 人 、 组 织 、 地 点 或 其 他 
实体 一 一 是 一 个 困难 的 问题 。 然 后 ， 我 们 看 看 对 记录 做 比较 和 合并 那些 我 们 认为 代表 同一 个 实 
体 的 记录 的 过 程 。 在 一 些 比 较 合理 的 条 件 下 ， 有 一 个 算法 寻找 一 种 独特 的 方法 ， 来 分 组 所 有 的 代 
表 共 同 实体 的 记录 和 集 ， 并 有 效 地 进行 分 组 。 
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10.7.1 决定 是 否 记录 代表 一 个 共同 实体 

假设 我 们 有 一 组 记录 ， 它 们 代表 一 个 实体 集合 的 成 员 们 。 这 些 记录 可 能 是 从 几 个 不 同 的 数 
据 源 ， 或 者 甚至 是 从 一 个 数据 源 派生 的 元 组 。 我 们 只 需要 知道 ， 这 些 记 录 每 个 都 有 相同 的 字段 
(虽然 有 些 记 录 可 能 在 某 些 字 段 上 为 空 ) 。 我 们 希望 比较 相应 的 字段 值 来 决定 是 否 两 个 记录 代表 
同一 个 实体 。 

具体 来 说 ， 假 设 实体 是 人 ， 并 且 记 录 有 三 个 字段 : 姓名 、 地 址 和 电话 。 直 观 地 说 ， 我 们 想 说 
的 是 ， 如 果 两 个 记录 在 这 三 个 字段 的 每 一 个 都 有 相似 的 值 ， 两 个 记录 代表 相同 的 个 体 。 因 为 很 多 
原因 使 得 不 能 坚持 相应 字段 的 值 是 完全 相同 的 。 其 中 : 

1. 拼写 错误 。 通 常 ， 数 据 是 由 工作 人 员 输 入 的 ， 他 通过 电话 听 到 一 些 事情 ,或 者 粗心 地 复 
制 一 个 书面 的 副本 。 因 此 ,“Smythe" ARERR T “Smith”, 或 “Jones” 可 能 变 成 了 “Jomes”(“m” 和 
“n” 在 键盘 上 相 邻 )。 两 个 电话 号 码 或 街道 地 址 可 能 在 一 个 数字 上 会 有 所 不 同 ,但 实际 上 代表 同 
一 个 电话 或 房子 。 

2. 不 同 的 名 称 。 一 个 人 可 能 提供 他 的 middle mane 词 首 或 不 提供 。 他 可 以 用 他 完整 的 first 
name， 或 只 是 其 词 首 ， 或 昵称 。 因 此 ,“Susan Williams” 在 不 同 的 记录 中 可 能 显示 为 “Susan 
B. Williams”、“S. Williams ”或 “Sue Williams” , 

3. 误解 的 名 称 。 目 前 世界 各 地 使 用 很 多 不 同 的 名 字 系 统 。 在 美国 ， 有 时 难以 理解 亚洲 国家 
的 名 字 通 常 以 姓氏 开头 。 因 此 ,，“ Chen Li” 和 “Li Chen” 可 能 是 也 可 能 不 是 同一 个 人 。 此 书 的 第 一 
作者 被 称 为 *Hector Garcia-Molina”、“Hector Garcia”， 甚 至 “ Hector G. Molina”。 

4. 值 的 演变 。 有 时 候 ， 两 个 代表 相同 实体 的 不 同 记 录 是 在 不 同 的 时 间 创 建 的 。 一 个 人 可 能 
已 在 此 期 间 搬家 了 ， 所 以 这 两 个 记录 的 地 址 字段 是 完全 不 同 的 。 或 者 ， 他 们 可 能 已 经 开始 使 用 手 
机 ， 因 此 手机 字段 是 完全 不 同 的 。 区 号 有 时 候 会 改变 。 例 如 ， 每 一 个 (650 ) 数字 以 前 是 (415 ) 数 
字 ， 所 以 旧 的 记录 可 能 有 (415)555-1212， 而 一 个 新 的 记录 有 (650)555-1212 ， 然 而 这 些 数 字 指 
的 是 同一 个 电话 。 

5 缩写 。 有 时 单词 在 地 址 中 完整 地 拼写 出 来 了 ， 而 其 他 的 时 候 可 能 使 用 缩写 。 因 此 , “Sesa- 
me St. ”和 “Sesame Street” 可 能 是 同一 条 街 。 

因此 ， 当 决定 两 个 记录 是 否 表示 相同 的 实体 时 ， 我 们 需要 仔细 看 看 出 现 的 各 种 差异 ， 并 制订 
计 分 系统 或 其 他 测试 ， 来 测量 记录 的 相似 性 。 最 终 ， 我 们 必须 把 分 数 变 成 是 / 否 的 决定 : 是 否 这 
些 记 录 代 表 同 一 个 实体 ? 下 面 我 们 将 讲 到 两 个 测量 记录 相似 性 的 有 效 方法 。 

编辑 距离 

字符 串 值 可 以 通过 计数 使 它 从 一 个 字符 串 变 成 男 一 个 字符 串 所 需 的 插入 和 /或 删除 的 字符 数 
来 比较 。 因 此 ，Smythe 和 Smith 的 距离 为 3( 删 除 “y” 和 “e”， 然 后 插入 “i”)。 

另 一 种 编辑 距离 将 一 个 变换 (mutation) 计数 为 1， 变 换 即 一 个 字母 用 另 一 个 字母 替换 。 在 这 
种 度量 中 ，Smythe 和 Smith 的 距离 为 2( 变换 “y” 到 “i”， 并 删除 “e”)。 这 种 编辑 距离 使 得 识 错 字 
母 的 “成 本 ”降低 ， 因 此 可 能 是 适当 的 ， 如 果 输 入 错误 在 数据 中 很 普遍 。 

最 后 ,我 们 可 以 考虑 数据 的 构建 方式 ， 设 计 一 种 特殊 的 距离 。 例 如 ， 如 果 我 们 认为 区 号 的 改 
变 是 错误 的 一 个 主要 来 源 ， 我 们 可 能 对 于 改变 整个 区 号 到 另 一 个 区 号 仅 计数 1。 我 们 可 能 会 认为 
误解 姓氏 的 问题 是 严重 的 ， 并 允许 名 字 的 两 个 部 分 以 低 成 本 进行 交换 ， 因 此 ，Chen Li 与 Li Chen 
的 距离 为 1 。 

一 旦 我 们 为 每 个 字段 决定 了 适当 的 编辑 距离 ， 我 们 就 可 以 定义 记录 的 相似 性 度量 。 例 如 ， 我 
们 可 以 合计 两 个 记录 中 的 每 一 个 相应 字段 对 的 编辑 距离 ， 或 者 我 们 可 以 计算 出 这 些 距离 的 平方 
和 。 无 论 我 们 使 用 什么 公式 ， 如 果 我 们 看 到 不 同 的 记录 的 相似 性 度量 低 于 某 一 赋值 ， 我 们 就 说 那 
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些 记录 代表 相同 的 实体 。 

规范 化 

在 应 用 编辑 距离 之 前 ， 我 们 不 妨 通 过 用 其 他 字符 串 来 替换 某 些 子 串 以 “规范 化 记录。 我们 
的 目标 是 ， 代 表 同 样 的 “事物 ”的 子 串 将 变 成 一 致 的 。 例 如 ， 使 用 一 个 缩写 表 并 用 它们 通常 代表 
的 含义 来 替换 缩写 ， 可 能 是 有 意义 的 。 因 此 ，St. 在 街道 地 址 里 将 被 street 取代 ， 在 城镇 名 字 里 
将 被 Saint 取代 。 此 外 ， 我 们 可 以 使 用 昵称 和 不 同 拼写 法 的 表 ， 因 此 Sue 将 变 成 Susan, Jeffery 将 
变 成 Geoffrey, 

甚至 可 以 利用 名 称 的 探测 法 (soundex) 编码 ， 使 听 起 来 相同 的 名 字 由 同一 个 字符 串 表 示 。 这 
个 系统 ， 被 电话 信息 服务 所 使 用 ， 例 如 ， 会 将 Smith 和 Smythe 表示 成 一 样 的 。 一 旦 我 们 已 经 规范 
化 了 记录 里 的 值 ， 我 们 就 可 以 只 基于 相同 的 值 进行 我 们 的 相似 性 测试 (例如 ， 两 个 记录 的 大 多 数 
字段 有 相同 的 值 ) ,或 者 我 们 可 以 进一步 使 用 编辑 距离 来 测量 字段 中 规范 化 的 值 之 间 的 差异 。 


10. 7.2 合并 相似 记录 

在 许多 应 用 中 ， 当 我 们 发 现 两 个 记录 足够 相似 可 以 合并 时 ， 我们 会 用 单一 的 记录 来 替换 他 
们 ， 该 记录 在 茶 种 意义 上 包含 了 这 两 个 记录 的 信息 。 例 如 ， 如 果 我 们 要 在 所 代表 的 实体 上 编制 
“汇总 档案 ”， 我 们 可 能 会 取 各 个 字段 上 的 值 的 并 集 。 或 者 ,我 们 会 用 某 种 方法 将 相应 字段 的 值 
结合 起 来 ， 产 生 一 个 单一 的 值 。 如 果 我 们 试图 将 值 结 合 起 来 ， 有 很 多 的 规则 可 以 使 用 ， 没 有 明显 
的 最 好 的 办 法 。 例 如 ， 我 们 可 能 会 假定 全 名 应 代替 昵称 或 缩写 ; 而 一 个 中 间 和 名词 疼 ， 应 该 代替 没 
有 中 间 名 词 首 的 。 因 此 ,“S$usan William” 和 “S. B. Williams” 将 被 合并 成 “Susan B. Williams”。 

目前 还 不 太 清 楚 如 何 处 理 拼写 错误 。 例 如 ， 我 们 应 如 何 将 地 址 “123 Oak St. ”和 “123 Yak 
St“ 结 合 起 来 ? 也 许 我 们 可 以 看 看 城市 或 邮编 ， 并 确定 有 橡树 街 ， 没 有 憾 牛 街 。 但 如 果 两 个 都 存 
在 ， 并 且 123 在 它们 的 地 址 范围 内 ， 则 没有 正确 的 答案 。 

如 果 我 们 使 用 相似 性 测试 和 合并 规则 的 某 些 组 合 ， 会 出 现 的 另 一 个 问题 是 ， 我 们 决定 合并 
一 对 记录 ， 但 这 可 能 阻止 我 们 合并 另 一 对 。 一 个 例子 可 能 有 助 于 说 明 这 种 风险 。 





(1) | Susan Williams | 123 Oak St. 818-555-1234 


(2) | Susan Williams | 456 Maple St. | 818-555-1234 
(3) | Susan Williams | 456 Maple St. | 213-555-5678 


图 10-12 要 合并 的 3 个 记录 


例 10.22 假设 我 们 有 图 10-12 的 3 个 姓名 -地址 -电话 记录 。 我 们 的 相似 性 规则 是 :“ 必 
须 在 3 个 字段 中 至 少 有 两 个 是 完全 一 致 的 。” 还 假设 我 们 的 合并 规则 是 :“ 设 置 这 些 记 录 中 不 一 致 
的 字段 为 空 字符 串 。 

于 是 记录 (1) 和 (2) 是 相似 的 ， 记 录 (2) 和 (3) 也 是 相似 的 。 请 注意 ， 记 录 (1) 和 (3 ) 不 是 相 
似 的 ， 这 提醒 我 们 ， 通 常 “ 相 似 " 不 具有 传递 关系 。 如 果 我 们 决定 用 (1) 和 (2) 的 合并 替换 它们 ， 
我 们 只 剩 下 两 个 元 组 : 


姓名 地 址 电话 
(1-2) | Susan Williams 818-555-1234 
这 些 记 录 在 两 个 字段 上 不 一 致 ， 因 此 它们 不 能 被 合并 。 如 果 我 们 先 合 并 了 (1) 和 (3) ， 我 们 


就 会 再 次 遇 到 一 个 情况 ， 即 余下 的 记录 也 不 能 与 结果 合并 。 
另 一 个 相似 性 和 合并 规则 的 选择 是 : 
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1. 通过 取 各 个 字段 的 值 的 并 集 进 行 合并 。 

2. 声明 两 个 记录 是 相似 的 ， 如 果 3 个 字段 中 至 少 有 两 个 字段 有 非 空 的 交集 。 

考虑 图 10-12 的 3 个 记录 。 同 样 ，(1) 和 (2) 相似 ， 且 (2) 和 (3) 相 似 ， 但 (1) 和 (3) 不 相似 。 
如 果 我 们 选择 先 合 并 (1) 和 (2) ， 我 们 得 到 : 


(1-2) | Susan Williams | {123 Oak St. 818-555-1234 
456 Maple St.} 
(3) Susan Williams | 456 Maple St. 213-555-5678 
现在 ， 剩 下 的 两 个 元 组 是 相似 的 ， 因 为 436 Maple St. 在 这 两 个 地 址 集合 中 都 是 成 员 ，Susan 
Williams 在 这 两 个 姓名 集合 中 都 是 成 员 。 结 果 是 一 个 元 组 : 









{123 Oak St., 
456 Maple St.} 








10.7.3 相似 性 和 合并 函数 的 有 用 性 质 

相似 性 和 合并 函数 的 任何 选择 都 使 得 我 们 能 够 测试 记录 对 的 相似 性 ， 并 且 如 果 相 似 就 合并 
它们 。 正 如 我 们 在 例 10. 22 的 第 一 部 分 看 到 的 ， 当 没有 更 多 的 记录 可 以 合并 时 我 们 得 到 的 结果 ， 
这 可 能 取决 于 我 们 首先 考虑 哪 一 对 可 以 合并 的 记录 。 是 否 可 能 导致 不 同 的 结束 情况 依赖 于 相似 

性 和 合并 的 性 质 。 

有 几 个 性 质 是 我 们 希望 任何 合并 函数 都 满足 的 。 如 果 人 是 产生 两 个 记录 的 合并 的 操作 ， 以 
下 期 望 是 合理 的 : 

1.rAr=r( 舌 等 性 )。 也 就 是 说 ， 一 个 记录 和 它 自己 的 合并 肯定 也 应 该 是 那个 记录 。 

2.rAs=sAr( 交 换 性 ) 。 如 果 我 们 合并 两 个 记录 ， 我 们 列 出 它们 的 顺序 应 该 是 不 重要 的 。 

3. (rAs) At=rA(sAb (结合 性 ) 。 我 们 分 组 并 合并 记录 的 顺序 应 该 是 不 重要 的 。 

这 3 个 属性 表示 合并 操作 是 一 个 半 格 。 请 注意 ， 例 10. 22 的 两 个 合并 函数 都 具有 这 些 属性 。 
唯一 环 手 的 一 点 是 ， 我 们 必须 记 住 ，rAs 不 需要 对 所 有 的 记录 rr 和 s 定义 。 然 而 ， 我 们 确实 假设 : 

。 如果 ~ 和:* 是 相似 的 ， 则 > 人 As 被 定义 了 。 

也 有 一 些 我 们 期 望 相似 性 关系 能 具有 的 性 质 ， 以 及 一 些 我 们 期 望 相 似 性 和 合并 用 来 交互 的 
方式 。 我 们 将 使 用 > ~ s 表示 记录 7r 和 s 是 相似 的 。 

a)r = r( 相 似 性 的 村 等 性 ) 。 一 个 记录 总 是 和 它 本 身 相 似 。 

b)r = s 当 且 仅 当 s = r( 相 似 性 的 交换 性 ) 。 也 就 是 说 ， 在 决定 两 个 记录 是 否 相似 时 ， 我 们 
以 何 种 顺序 列 出 它们 是 不 重 训 的 。 

c) 如 果 r =s， 则 r =(s A (可 被 代表 性 )。 此 规则 要 求 ， 如 果 7 与 某 个 其 他 记录 s 相似 (从 
而 可 与 合并), 但 和 某 个 其 他 记录 i 合并 了 ， 则 7 仍然 与 和 + 的 合并 相似 ， 可 以 与 这 个 记录 
合并 。 l 

请 注意 ， 可 被 代表 性 是 最 有 可 能 失败 的 性 质 。 特 别 地 ， 对 于 例 10. 22 的 第 一 个 合并 规则 它 失 
败 了 ， 那 里 我 们 通过 设置 不 一 致 的 字段 为 空 字符 串 进 行 合 并 。 特 别 地 ， 当 7 是 图 10-12 的 记录 
(3), sÆ(2), 1 是 (1) 时 ,可 被 代表 性 失败 了 。 与 此 相反 ,， 例 10. 22 的 第 二 个 合并 规则 满足 可 被 
代表 性 规则 。 如 果 r 和 s 至 少 在 两 个 字段 上 有 非 空 的 交集 ， 如 果 我 们 用 s A 上 替换 *， 那 些 共 享 的 
值 还 会 存在 。 
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以 上 的 性 质 集合 被 称 为 TC4R MER. LEST ALD RRR EE, KAE, AERA RR 
表 性 。 
10.7.4 ICAR 记录 的 R-Swoosh 算法 

当 相 似 性 和 合并 函数 满足 ICAR 性 质 时 ， 有 一 个 简单 的 算法 ， 它 合并 所 有 可 能 的 记录 。 可 被 
代表 性 保证 ， 如 果 两 个 记录 是 相似 的 ， 那 么 随 着 它们 与 其 他 记录 合并 ， 生 成 的 记录 也 是 相似 的 ， 
并 最 终 会 被 合并 。 因 此 ， 如 果 我 们 重复 地 这 样 做 : 对 任何 一 对 相似 的 记录 ， 用 它们 的 合并 来 替 
换 ， 直 到 不 再 有 相似 的 记录 对 存在 ， 那 么 我 们 达到 了 一 个 唯一 的 记录 集合 ， 它 独立 于 我 们 合并 的 
顺序 。 

一 个 有 用 的 考虑 合并 过 程 的 方法 是 想象 一 个 图 ， 它 的 结 点 是 记录 。 如 果 r~s, WAR rA s 
之 间 有 一 条 边 。 由 于 相似 性 不 必 是 传递 的 ， 很 可 能 结 点 r 和 s 以 及 s 和 :之 间 有 边 , 但 > 和 上 之 间 
没有 边 。 例 如 ， 图 10-12 的 记录 对 应 到 图 10-13 的 图 。 


图 10-13 图 10-12 的 相似 性 图 


然而 ， 可 被 代表 性 告诉 我 们 ， 如 果 我 们 合并 * Mt, WARA r 与; 相似， 它 将 会 与 AtA 
Wo E, RITAK r s 和 上 所 有 这 3 个 合并 起 来 。 同 样 ， 如 果 我 们 先 合 并 7 和 ss， 可 被 代表 
性 表明 ， 由 于 s =t, 我 们 也 有 (r A s) = i:， 所 以 我 们 可 以 用 r 人 s 合并 1。 结合 律 告诉 我 们 ， 由 
此 产生 的 记录 将 是 相同 的 ， 不 论 我 们 合并 的 顺序 如 何 。 

上 述 的 想法 延伸 到 以 任何 方式 连接 的 任何 ICAR 结 点 (记录 ) 的 集合 。 也 就 是 说 ， 不 管 我 们 合 
并 的 顺序 如 何 ， 结 果 是 图 的 每 个 连通 分 支 成 为 一 个 单一 的 记录 。 这 个 记录 是 在 该 连通 分 支 中 的 
所 有 记录 的 合并 。 交 换 性 和 结合 性 足以 告诉 我 们 ， 我 们 执行 合并 的 顺序 并 不 重要 。 

虽然 计算 图 的 连通 分 支 在 原则 上 是 简单 的 ， 但 当 我 们 有 百 万 以 上 的 记录 时 ， 构 造 图 的 方法 
是 不 可 行 的 。 这 样 做 会 要 求 我 们 测试 每 一 对 记录 的 相似 性 。“R-Swoosh ”算法 是 对 下 面 想法 的 一 
个 实现 ， 它 组 织 相 似 性 比较 ， 使 我 们 在 许多 情况 下 避免 比较 所 有 的 记录 对 。 不 幸 的 是 ， 如 果 没 有 
任何 相似 的 记录 ， 那 么 就 没有 算法 可 以 避免 比较 所 有 的 记录 对 ， 以 确定 这 一 事实 。 

GRANS] R-Swoosh 

输入 记录 集合 I， 相似 性 函数 过， 合并 函数 八 。 我 们 假设 ~ 和 八 满 足 ICAR 性 质 。 如 果 它 
们 不 满足 ， 则 算法 仍然 能 合并 某 些 记录 ， 但 结果 不 一 定 是 最 大 的 或 最 好 的 可 能 合并 。 

l 输出 ”合并 后 的 记录 集合 0。 
方法 ”执行 图 10-14 HFR, O 的 最 终 值 就 是 输出 。 


0 := emptyset; 
WHILE I is not empty DO BEGIN 
let r be any record in I; 
find, if possible, some record s in 0 that is similar to r; 
IF no record s exists THEN 
move r from I to 0 
ELSE BEGIN 
delete r from I; 
delete s from 0; 
add the merger of r and s to I; 
END; 
END; 














图 10-14 R-Swoosh 算法 
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Bj 10.24 假设 7 是 图 10-12 的 那 三 个 记录 。 我 们 使 用 例 10. 22 的 ICAR 相似 性 和 合并 函数 ， 
即 取 一 个 字段 的 可 能 的 值 的 并 集 ， 来 产生 合并 后 的 记录 的 相应 字段 。 最 初 ，0 是 空 的 。 我 们 取 7 
中 的 一 个 记录 ， 例 如 记录 (1) ， 作 为 图 10-14 中 的 记录 r。 由 于 0 是 空 的 ， 没 有 任何 可 能 的 记录 
s， 所 以 我 们 把 记录 (1) 从 1 移 到 0, 

我 们 下 一 步 取 一 个 新 的 记录 r。 假 设 我 们 选中 记录 (3) 。 由 于 记录 (3) 和 记录 (1) 不 相似 ， 
(1) 是 在 0 里 的 唯一 记录 ， 于 是 我 们 再 一 次 没有 s 的 值 ， 因 此 我 们 将 记录 (3) 从 1 移 到 0。r 的 第 
三 个 选择 必定 是 记录 (2) 。 这 个 记录 与 0 里 的 两 个 记录 都 是 相似 的 ， 所 以 我 们 必须 选择 一 个 作为 
s， 假 设 我 们 选择 记录 (1)。 然 后 ， 我 们 合并 记录 (1) 和 (2) 以 获得 记录 : 


姓名 地 址 电话 
(1-2) | Susan Williams | {123 Oak St., 818-555-1234 
456 Maple St.} 


我 们 从 7 了 中 删除 记录 (2) ， 从 0 中 删除 记录 (1)， 并 将 以 上 记录 插入 到 1。 在 这 一 点 上 , 1 仅 
包含 记录 (1-2) ，O 仅 包 含 记录 (3)。 
我 们 选择 记录 (12) 作 为 一 一 唯一 的 选择 ， 然 后 选择 记录 (3 ) 作 为 
然后 R-Swoosh 算法 的 执行 结束 。 这 些 记 录 被 合并 了 ， 以 产生 : 
名 字 地 址 电话 


Susan Williams | {123 Oak St., {818-555-1234, 
456 Maple St.} 213-555-5678} 








也 是 唯一 的 选择 ， 












且 从 7 和 0 中 分 别 做 删除 。 记 录 (1-2-3 ) 被 放 在 了 上 里， 此 时 它 是 了 里 唯一 的 记录 ， 而 0 是 空 的 。 在 
最 后 一 步 ， 这 个 记录 从 7 移动 到 O， 且 算法 结束 了 。 口 


10.7.5 为 什么 R-Swoosh 算法 会 有 效 

回顾 ICAR 相似 性 和 合并 函数 ， 其 目的 是 要 合并 构成 互相 关联 的 成 分 的 记录 。 这 里 有 一 个 对 
于 图 10-14 的 while 循环 成 立 的 循环 不 变量 。 

。 如 果 一 个 互相 关联 的 成 分 C 没有 被 完全 合并 到 一 个 记录 中 ， 那 么 在 7 中 至 少 有 一 个 记录 

要 么 本 身 属于 C， 或 者 是 由 C 中 某 些 记录 合并 而 成 。 

让 我 们 看 一 下 为 什么 这 个 不 变量 必然 成 立 。 假 设 在 循环 的 某 一 迭代 中 选 定 的 记录 7 是 来 自 它 
的 互相 关联 的 成 分 C 的 在 7 中 的 最 后 一 个 记录 。 如 果 7r 是 唯一 的 由 C 中 一 个 或 多 个 记录 合并 而 成 
的 记录 ， 则 它 可 以 被 移动 到 0， 并 不 违反 循环 不 变 。 

但 是 ， 如 果 有 由 C 中 一 个 或 多 个 记录 合并 而 成 的 其 他 记录 ， 它 们 会 在 0 F. Sr ERER 
(六 包含 在 C 中 ) 合 并 的 结果 。 注 意 ,R 既 可 以 只 有 一 个 记录 ， 也 可 以 有 许多 记录 。 然 而 ， 由 于 RR 
并 不 是 C 的 全 部 ， 那 么 RR 中 一 定 存在 一 个 原始 的 记录 r,， 它 与 存在 于 CR 中 的 另 一 原始 记录 7， 
类 似 。 假 设 目前 合并 到 0 中 的 一 个 记录 中。 借助 于 可 被 代表 性 ，( 也 许 应 用 几 次 ) ， 我 们 可 
以 从 已 知 的 7 =r, 开始 ， 推 导出 r~r"。 因 此 , 7* 可 以 是 图 10-14 中 的 *。 其 结果 是 ，r 一 定 会 与 0 
中 的 某 一 记录 合并 。 这 样 作为 结果 的 合并 记录 会 在 1 中 出 现 , 它 是 由 C 中 的 某 些 或 全 部 记录 合并 
而 成 。 因 此 ， 循 环 不 变量 继续 被 保持 。 


10.7.6 实体 解析 的 其 他 方法 
还 有 许多 其 他 的 算法 ， 可 以 发 现 和 合并 (可 选 ) 相 似 记 录 。 我 们 在 这 里 将 对 其 中 的 一 些 算法 
做 简单 介绍 。 
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非 ICAR 数据 集 
首先 ， 假 设 数据 集 不 具有 ICAR 性 质 ， 但 是 我 们 仍 希 望 找到 记录 所 有 可 能 的 合并 ， 包 括 这 样 
一 些 情况 ， 例 如 一 条 记录 7 与 田 一 条 记录 7, 合并 了 ,但 是 后 来 ， (不 是 已 合并 的 r,Ar,) 又 和 记 
录 合并 。 如 果 是 这 样 ， 我 们 需要 把 所 有 的 记录 ， 包 括 我 们 通过 合并 构建 的 记录 和 所 有 的 其 他 
记录 (也 包括 通过 合并 构建 的 ) ， 进 行 系统 的 比较 。 
为 了 帮助 控制 记录 的 扩散 ， 我 们 可 以 定义 一 种 记录 间 的 支配 (dominance) 关 系 rs*， 即 记 
录 s 包含 记录 7 所 包含 的 所 有 信息 。 这 样 的 话 ， 进 一 步 考 虑 我 们 可 以 消除 记录 ro MRAM 
数 是 一 个 半 格 ， 则 对 专 唯 一 合理 的 选择 是 a<65 当 且 仅 当 aA5 =8。 这 种 支配 蚂 数 总 是 一 个 偏 
FP, 不 管 使 用 什么 半 格 。 如 果 合 并 操作 甚至 不 是 一 个 半 格 ， 则 支配 函数 必须 由 一 种 特定 的 方 
式 来 构建 。 
Rik 
在 一 些 实体 - 解析 的 应 用 中 ， 我 们 并 不 希望 做 合并 ， 而 是 想 将 记录 分 组 成 一 些 聚焦 ， 这 样 相 
同类 别 的 成 员 在 某 种 意义 上 彼此 相似 ， 不 同类 别 的 成 员 并 不 相似 。 举 例 来 说 ， 如 果 我 们 在 eBay 
上 寻找 出 售 的 相似 产品 时 ， 我 们 可 能 希望 得 到 的 结果 不 是 各 类 产品 的 单个 记录 ， 而 是 一 个 代表 
销售 的 同类 产品 的 记录 列表 。 大 规模 数据 紊乱 涉及 一 系列 复杂 的 选择 ， 我 们 将 在 11. 5 节 进 一 步 
深入 讨论 这 个 问题 。 
分 区 
因为 任何 做 相似 记录 完全 合并 的 算法 可 能 会 被 迫 检 查 每 个 记录 对 ， 在 大 型 实体 辨别 问题 
中 ， 它 可 能 不 是 能 得 到 一 个 确切 的 答案 的 可 行 方案 。 一 种 解决 方案 是 将 记录 分 组 ， 也 许 会 进 
行 几 次 ， 直 到 各 组 内 尽 可 能 地 含有 类 似 的 记录 。 这 样 我 们 就 可 以 只 在 各 组 内 寻找 相似 的 记录 
对 了 。 
例 10. 25 假设 我 们 有 数 以 百 万 计 的 姓名 - 地 址 -电话 记录 ， 且 衡量 相似 性 的 标准 是 三 个 字 
段 中 的 值 的 总 编辑 距离 最 多 为 5。 我 们 可 以 把 记录 分 组 ， 使 每 个 组 内 的 记录 具有 相同 的 姓名 字 
段 。 我 们 也 可 以 根据 记录 的 地 址 字段 将 其 分 组 ,第 三 次 可 以 根据 电话 号 码 字 有 段 进行 分 组 。 因 此 ， 
每 个 记录 出 现在 三 组 之 中 ， 并且 只 与 这 些 组 内 的 成 员 进行 比较 。 这 种 方法 不 会 注意 到 一 对 具有 
电话 号 码 编辑 距离 为 2、 姓 名 编辑 距离 为 2、 地 址 编辑 距离 为 1 的 相似 记录 。 然 而 ， 在 实际 应 用 
中 ， 它 几乎 可 以 捕捉 到 所 有 的 相似 记录 对 。 o 
例 10.25 的 想法 其 实 是 一 个 重要 思想 “局 部 敏感 散 列 ”的 特殊 情况 。 我 们 将 在 11.4 节 讨 论 这 
个 话题 。 
10.7.7 习题 
习题 10.7. 1 FER s 是 字符 串 圭 的 子 序 列 ， 如 果 字 符 串 是 由 字符 串 上 删 掉 0 个 或 多 个 位 置 的 字符 后 形成 
的 。 例 如 ， 如 果 : =“acbae”， 那 么 :的 子 串 包 括 “aca”( 删除 位 置 3 和 5 的 字符 )、“cb”( 删 除 位 置 1、4 和 
5 的 字符 ) 和 空 字符 串 (删除 所 有 字符 ) 。 
a) 列 出 字符 串 “acbac"” 的 所 有 其 他 子 序列 。 
b) 给 出 “aace” 的 所 有 子 序列 。 
1c) 如 果 一 个 字符 串 有 个 不 同 的 字符 ， 它 将 有 多 少 个 子 序列 ? 
习题 10.7. 2 ”两 个 字符 串 s 和 t 的 最 长 公共 子 序 列 是 指 任 何 字符 串 r, CRE s 又 是 上 TEI, HEEM s 
和 + 的 其 他 任何 公共 子 串 一 样 长 。 例 如 ,“aba" 和 "bab” 的 最 长 公共 子 序 列 是 “ab” 和 “ba”。 给 出 下 列 字符 
串 中 每 一 对 的 最 长 公共 子 序列 ;“she”、“hers” “they”, “theirs” 
习题 10.7. 3 ”两 个 字符 串 。 和 + 的 最 短 公 共 超 序列 是 指 某 一 字符 串 r>, s 和 + 都 是 它 的 子 序 列 ， 且 不 存在 比 > 
更 短 的 以 s 和 :为 子 序列 的 字符 串 。 例 如 ， 字 符 串 “acb”、“be” 的 一 些 最 短 公 共 超 序列 是 “acbc”、“abeb”。 
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a) 给 出 习题 10.7. 2 中 每 一 个 字符 串 对 的 最 短 公 共 超 序列 。 
1b) 给 出 字符 串 “acb” 和 “be” 的 所 有 其 他 最 短 公 共 超 序列 。 

1 ce) 如 果 两 个 字符 串 没有 相同 的 字符 ， 长 度 分 别 为 m 和 mn， 它们 有 多 少 最 短 公共 超 序 列 ? 

! 习题 10.7.4 在 10.7.6 节 我 们 讲 到 ， 如 果 人 是 一 个 半 格 ， 则 当 且 仅 当 aA 85 = 时 由 asb 定义 的 支配 关系 
是 一 个 偏 序 。 也 就 是 说 ，o<8 H bsc 意味 着 a<c( 传 递 性 )，a<b Hbsa MHK a = 上 反对 称 性 ) 。 请 
利用 半 格 的 自 反 性 、 交 换 性 和 结合 性 证 明 友 是 一 个 偏 序 。 

! 习题 10. 7. 5 ”假设 我 们 合并 记录 (其 字段 都 是 字符 串 ) ， 对 于 每 一 个 字段 ， 都 按照 其 相应 字段 字符 串 的 字典 
顺序 的 第 一 个 最 长 公共 子 序列 进行 合并 。 

” a) 这 种 合并 的 定义 是 否 满足 罕 等 律 、 交 换 律 和 结合 律 ? 

b) 如果 对 于 每 一 个 字段 ， 都 通过 采取 相应 字符 串 字 典 顺序 的 第 一 个 最 短 公 共 超 序列 进行 合并 ， 重 做 习题 
(a)。 

! 习题 10. 7. 6 ”假设 我 们 定义 如 下 的 相似 性 和 合并 函数 ; 

i 两 个 记录 是 相似 的 ， 如 果 它 们 在 所 有 字段 或 者 在 除 一 个 字段 外 其 他 所 有 字段 上 ， 拥 有 相同 的 值 或 者 某 
一 记录 具有 空 值 。 

i, 合并 两 个 记录 : 如 果 它 们 在 某 一 字段 的 值 一 致 ， 就 把 这 个 字段 赋 成 它们 的 共同 的 值 ， 如 果 它 们 在 某 一 
字段 的 值 不 一 致 ， 就 把 这 个 字段 赋 成 空 值 。 注 意 空 值 和 任何 非 空 值 不 一 致 。 

说 明 上 述 相似 性 定义 和 合并 函数 具有 ICAR 性 质 。 


10.8 小 结 


。 信息 集成 : 当 许多 数据 库 或 其 他 信息 源 包含 相关 的 信息 ， 我 们 有 机 会 将 这 些 信 息 合 并 为 
一 。 然 而 ， 数 据 源 的 模式 通常 存在 异 构 性 ， 这 些 不 相 容 性 包括 类 型 不 同 、 值 的 编码 或 约 
定 不 同 、 对 概念 的 解释 不 同 以 及 不 同 模式 中 表示 的 概念 集 不 同 。 

。 信息 集成 方法 ; 早期 的 办 法 都 涉及 “联合 "， 其 中 每 个 数据 库 会 以 其 他 数据 库 能 理解 的 术 

语 查 询 其 他 数据 库 。 最 近 的 方法 是 数据 仓库 ， 其 中 数据 转换 为 一 个 全 局 统一 的 模式 ， 并 

复制 到 仓库 。 另 一 种 方法 是 中 介 ， 创 建 一 个 虚拟 的 仓库 ， 人 允许 全 局 统一 模式 的 查询 ， 然 

后 再 将 查询 转化 为 数据 源 的 术语 。 

提取 器 与 包装 器 : 仓库 和 中 介 在 每 个 数据 源 都 有 一 些 组 件 ， 分 别称 为 提取 器 与 包装 器 。 

它们 的 主要 功能 是 负责 数据 源 中 ， 查 询 和 结果 在 全 局 模式 和 本 地 模式 之 间 的 转换 。 

包装 器 生成 器 : 一 种 设计 包装 器 的 方法 是 采用 模板 ， 它 描述 了 如 何 将 一 个 特定 形式 的 查 

询 由 全 局 模式 到 局 部 模式 进行 转换 。 这 些 模板 被 表格 化 并 且 被 将 查询 匹配 到 模板 的 驱动 

程序 所 解释 。 该 驱动 程序 还 有 以 多 种 方式 组 合 模板 的 能 力 ， 并 且 或 者 还 能 执行 其 他 的 角 

色 ， 例 如 过 滤 ， 以 回答 更 复杂 的 查询 。 

基于 能 力 的 优化 : mediator 的 数据 源 往往 只 能 或 只 愿意 回答 有 限 形式 的 查询 。 因 此 ，medi- 

ator 在 它 可 以 像 常规 的 DBMS 那样 考虑 优化 执行 查询 计划 的 成 本 之 前 ， 必 须 基 于 数据 源 的 

能 力 来 选择 查询 计划 。 

修饰 符 : 它们 提供 了 描述 数据 源 能 力 的 方便 的 记号 。 每 一 个 修饰 符 告诉 我 们 ， 对 于 关系 

的 每 一 个 属性 ， 在 匹配 该 修饰 符 的 查询 中 ， 是 否 该 属性 需要 或 允许 一 个 常数 值 ， 以 及 常 

数 是 否 必 须 从 菜单 中 选择 。 

CREW: 对 于 涉及 连接 以 及 可 能 跟随 其 后 的 选择 和 /或 投影 的 查询 ， 作 为 查询 的 单一 的 

Datalog 规则 是 其 简便 的 表达 方式 。 

Chain 算法 : 这 个 算法 是 一 个 响应 mediator 的 合 取 形式 的 查询 的 贪心 算法 。 在 一 个 数据 源 

中 反复 寻找 与 修饰 符 之 一 相 匹配 的 子 目 标 ， 并 从 数据 源 中 获取 该 子 目 标的 关系 。 这 样 做 

可 能 会 提供 对 于 查询 的 一 些 变量 的 一 个 常量 绑 定 集合 ， 于 是 重复 这 个 过 程 ， 寻 找 可 以 解 
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决 的 更 多 的 子 目 标 。 
© 以 局 部 作为 视图 的 mediator; 这 些 mediator 拥有 一 些 全 局 的 、 虚 拟 的 谓词 或 关系 ， 且 每 个 
数据 源 用 视图 来 描述 。 这 些 视图 是 用 全 局 谓词 作为 子 目 标的 合 取 查 询 。mediator 中 的 查询 
也 是 使 用 全 局 谓词 的 合 取 查 询 。 

用 视图 回答 查询 : 一 个 以 局 部 作为 视图 的 mediator 寻找 一 个 查询 的 解决 方案 ， 即 其 子 目 
标 使 用 视图 作为 谓词 的 合 取 查 询 。 所 提出 的 解决 方案 的 每 一 个 这 样 的 子 目标 用 定义 视图 
的 合 取 查询 来 扩展 ， 并 检查 该 扩展 是 否 包含 在 查询 中 。 如 果 是 这 样 ， 所 提出 的 解决 方案 
确实 提供 了 对 查询 的 (一 些 ) 回 答 。 
合 取 查询 的 包含 : 我 们 对 合 取 查 询 的 包含 性 测试 是 寻找 从 包含 查询 到 被 包含 查询 的 包含 
映射 。 一 个 包含 映射 是 一 个 变量 替换 ， 将 第 一 个 查询 的 头 部 变 为 第 二 个 查询 的 头 部 ， 把 
第 一 个 查询 的 每 一 个 子 目标 转换 为 第 二 个 查询 的 某 些 子 目 标 。 

限制 解决 方案 的 搜索 ; LMSS 定理 指出 ， 当 你 在 以 局 部 作为 视图 的 mediator 中 搜索 一 个 查 
询 的 结果 时 ， 只 需 考虑 那些 含有 的 子 目 标的 个 数 不 多 于 查询 本 身子 目标 个 数 的 的 解决 方 
案 即 可 。 

实体 解析 : 问题 是 采取 一 个 共同 的 模式 表示 记录 ， 找 出 可 能 代表 同一 实体 (例如 同一 个 
信 ) 的 记录 对 或 记录 级， 并 合并 成 一 个 单一 的 记录 ， 代 表 整 个 组 的 信息 。 
ICAR 相似 性 和 含 并 函数 : 相似 性 和 合并 函数 的 某 些 选择 满足 窒 等 律 、 交 换 律 、 结 合 律 和 
可 被 代表 性 。 后 者 是 有 效 的 合并 算法 的 关键 ， 因 为 它 保 证 如 果 两 个 记录 相似 ， 则 其 后 代 
也 相似 ， 尽 管 它们 合并 后 的 记录 会 代表 越 来 越 大 的 原始 记录 集合 。 

R-Swoosh 算法 ; 如 果 相 似 性 和 合并 的 算法 具有 ICAR 性 质 ， 那 么 ， 相 似 记 录 的 完全 合 
并 将 把 由 原始 记录 的 相似 性 关系 形成 的 图 的 一 个 连通 分 量 中 的 所 有 记录 合并 在 一 起 。 
R-Swoosh 算 法 是 一 个 不 需要 确定 每 一 个 记录 对 的 相似 性 就 能 进行 所 有 必要 的 合并 的 有 
效 算法 。 
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第 11 章 数据 挖掘 


“数据 挖掘 ”是 研究 数据 、 发 现 简 单 规则 或 模型 来 概括 数据 的 一 个 过 程 。 发 现 的 规则 可 能 很 
笼统 ， 例 如 “50% 买 热狗 的 人 同时 也 买 了 芥末 ”; 也 可 能 很 具体 ， 例 如 “具有 这 三 项 独立 的 信用 卡 
消费 记录 表示 他 们 在 运行 一 个 悉 怖 组 织 ”。 我 们 关于 数据 挖 气 的 讨论 将 集中 在 从 大 型 数据 库 中 挖 
掘 信息。 

我 们 将 从 研究 市 场 - 购物 篮 数据 开 始 ， 即 人 们 在 一 个 大 型 超市 中 所 有 的 购物 记录 构成 的 数 
据 。 这 个 研究 将 引出 一 系列 在 大 型 数据 库 中 发 现 “ 频 繁 项 集 ”的 高 效 算法 ， 其 中 包括 “A-Priori” 算 
法 以 及 一 些 它 的 延伸 算法 。 

我 们 接着 将 从 一 个 大 的 集合 中 发 现 “ 相 似 ” 的 项 一 一 例如 在 互联 网 上 发 现 拥有 大 量 相 同文 本 
的 网 页 ， 或 者 在 亚马逊 网 上 发 现 被 许多 消费 者 同时 购买 的 书 。“ 最 小 化 散 列 ” 和 “局 部 敏感 散 列 ” 
是 解决 这 个 问题 的 两 个 关键 技术 。 

在 本 章 最 后 ， 我 们 将 讨论 高 维 空间 中 大 规模 数据 的 聚 灸 问题 。 一 个 应 用 实例 是 在 互联 网 上 
根据 网 页 中 出 现 的 词 对 网 页 进行 聚 簇 。 在 这 个 例子 中 ， 一 个 词 就 表示 一 个 维度 ， 而 文档 在 这 个 高 
维 空间 中 的 位 置 由 该 文档 中 所 有 词 的 词 频 所 决定 。 


11.1 频繁 项 集 挖掘 


市 场 经 营 者 试图 从 庞大 的 消费 者 购物 记录 中 抽取 关于 购物 模式 的 信息 ， 由 此 便 产生 了 一 系 
列 的 间 题 。 其 中 的 基本 问题 被 称 作 “ 频 繁 项 集 "一 一 哪些 商品 经 常 被 消费 者 同时 购买 。 这 种 信息 
有 时 也 被 提炼 成 “关联 规则 ”一 一 关于 当 消 费 者 购买 了 一 些 商 品 之 后 可 能 购买 男 一 件 商品 的 推论 。 
相同 的 技术 还 有 许多 别 的 应 用 ， 包 括 研究 和 某 种 疾病 有 关 的 基因 组 合 以 及 发 现在 互联 网 文档 中 
DRM 0 


11.1.1 市 场 -购物 篮 模型 

在 一 些 重要 的 应 用 中 ， 数 据 包括 一 些 项 构成 的 集合 ， 有 可 能 是 超市 销售 的 所 有 商品 ， 以 及 一 
些 购物 篮 。 在 这 里 ， 每 个 购物 篮 都 是 所 有 商品 的 一 个 子 集 ， 相 对 于 所 有 商品 集合 的 大 小 它 通常 很 
小 ， 每 个 购物 篮 表 示 某 个 顾客 同时 购买 的 商品 的 集合 。 下 面 介绍 两 个 典型 的 购物 篮 数据 模型 的 
例子 。 

超市 收银 台 

一 个 大 型 的 连锁 超市 可 能 销售 上 万 种 商品 ， 数 以 百 万 计 的 顾客 推荐 他 们 的 购物 车 (“市 场 - 
购物 篮 ” ) 来 到 收 坎 台 ， 收 银 员 记录 下 他 们 购买 的 所 有 商品 。 每 一 笔记 录 对 应 了 一 个 购物 篮 ， 也 
就 是 市 场 - 购物 篮 模型 中 所 说 的 购物 篮 。 通 过 许多 连锁 超市 提供 的 打折 卡 或 者 他 们 自己 的 信用 
卡 ， 一 些 顾客 的 身份 能 够 被 确认 。 然 而 ， 顾 客 的 身份 对 于 我 们 从 数据 中 获取 有 用 信息 而 言 通常 不 
是 必需 的 。 

超市 通过 分 析 收 银 台 的 数据 来 了 解 顾客 通常 同时 购买 哪些 商品 。 举 例 来 说 ， 如 果 在 大 量 的 
购物 篮 记录 中 同时 包括 了 热狗 和 芥末 ， 那 么 超市 经 理 就 能 以 多 种 方式 利用 这 个 信息 。 

1. 显然 ， 很 多 顾客 必须 从 放置 热狗 的 货柜 走 去 放置 芥末 的 货柜 。 我 们 可 以 将 它们 一 起 安排 
在 临近 的 货柜 ， 并 且 在 它们 之 间 添 置 一 些 顾客 可 能 和 热狗 、 芥 末 同 时 购买 的 其 他 食物 ， 比 如 番茄 
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2. 超市 可 以 对 热狗 进行 降价 促销 ， 而 与 此 同时 提高 芥末 的 价格 (当然 ， 后 者 是 不 会 登 广 告 
的 ) 。 人 们 会 为 了 便宜 的 热狗 来 到 超市 ， 而 他 们 也 需要 芥末 。 为 了 买 到 便宜 的 芥末 而 麻烦 地 跑 去 
另 一 家 超市 对 于 顾客 来 说 是 不 值得 的 ， 因 此 他 们 会 买 这 里 的 芥末 。 这 样 ， 超 市 通过 芥末 弥补 了 热 
狗 上 的 损失 ， 而 同时 又 吸引 了 更 多 的 顾客 来 到 店 里 。 

对 于 有 些 人 来 说 ， 即 使 没有 分 析 数 据 ， 热 狗 和 芥末 的 关系 仍然 是 十 分 明显 的 ， 然 而 ， 有 些 商 
品 之 间 的 关系 就 不 那么 明显 了 。 最 著名 的 例子 就 是 尿布 和 啤酒 。® 

同时 出 现 的 商品 的 集合 这 一 事实 是 有 用 的 ， 但 必须 满足 某 个 条 件 ， 即 任何 有 用 的 两 件 (或 多 
件 ) 商品 一 定 被 大 量 的 顾客 同时 购买 。 一 旦 我 们 知道 许多 顾客 同时 购买 了 某 些 商品 ， 即 使 这 些 商 
品 的 购买 之 间 没 有 任何 联系 也 无 妨 。 相 反 地 ， 关 联 度 大 但 很 少 被 购买 的 商品 (例如 鱼子 桨 和 香槟 
酒 ) 对 于 超市 来 说 并 不 很 感 兴趣 ， 因 为 为 很 少 有 顾客 感 兴趣 去 购买 的 商品 做 广告 是 不 值得 的 。 

网 上 购物 

Amazon. com( 亚马逊 网 站 ) 提供 数 百 万 种 不 同 的 商品 ， 并 且 拥 有 数 千 万 消费 者 。 当 像 此 前 讨 
论 的 超市 这 样 的 实体 店 只 能 通过 大 量 顾客 同时 购买 的 商品 组 合 获 利 时 ， 亚 马 逊 以 及 其 他 网 上 销 
售 商 有 机 会 为 他 们 的 每 一 个 消费 者 量 身 提供 服务 。 这 样 ， 一 个 有 趣 的 问题 就 是 去 发 现 那些 许多 
消费 者 同时 购买 的 成 对 的 商品 。 然 后 ， 如 果 一 个 消费 者 只 买 了 其 中 一 种 商品 而 未 买 另 一 种 ， 那 么 
当 他 下 一 次 登录 时 亚马逊 向 其 推销 另 一 种 商品 是 个 不 错 的 选择 。 我 们 可 以 像 研究 市 场 - 购物 篮 
问题 那样 处 理 网 上 购物 ， 而 此 处 的 “购物 篮 " 是 某 个 特定 的 消费 者 长 期 以 来 购买 的 所 有 商品 。 

但 是 亚马逊 可 以 通过 另外 的 方式 使 用 这 些 相 同 的 数据 。 这 种 方式 通常 被 称 作 “协作 过 滤 ”， 
寻找 具有 相似 购买 习惯 的 消费 者 。 举 例 来 说 ， 我 们 可 以 寻找 两 个 (甚至 更 多 的 ) 消费 者 ， 他 们 已 
经 购买 了 许多 相同 的 商品 。 然 后 ， 当 一 个 消费 者 登录 时 ， 亚 马 逊 可 以 向 他 推荐 一 种 他 没有 购买 而 
和 他 具有 相似 购物 习惯 的 消费 者 购买 了 的 商品 。 

寻找 相似 的 消费 者 也 能 表示 为 市 场 - 购物 篮 问题 。 在 这 里 ,“ 物 品 " 是 所 有 消费 者 , “购物 
篮 "是 亚马逊 销售 的 所 有 商品 。 有 具体 地 说 ， 对 于 每 一 种 亚马逊 销售 的 商品 7， 都 对 应 了 一 个 “购物 
篮 ”， 其 中 包括 所 有 购买 了 商品 了 的 消费 者 。 

“许多 购物 篮 "在 网 上 商店 和 实体 店 场景 中 的 不 同 的 意义 是 值得 注意 的 。 在 实体 店 场景 中 ， 
我 们 可 能 需要 几 千 个 包含 商品 的 购物 复数 据 才能 有 效 地 利用 其 中 的 信息 。 而 对 于 网 上 商店 ,我 
们 也 许 只 需 少 量 的 包含 商品 的 购物 篮 数 据 ， 就 能 针对 前 面 提 到 的 目的 (向 每 个 消费 者 推荐 一 种 商 
品 ) 很 好 地 利用 这 些 信息 。 

另 一 方面 ， 实 体 店 不 需要 用 到 太 多 的 良好 关联 的 商品 集合 的 实例 ， 原 因 是 无 法 对 上 百 万 种 
商品 同时 进行 促销 。 相 对 地 ， 网 上 商店 需要 掌握 数 百 万 有 良好 关联 的 商品 集合 的 信息 ， 才 能 达到 
每 个 消费 者 至 少 包 含 其 中 一 种 商品 的 目标 。 结 果 是 ， 针 对 网 上 购物 场景 的 最 有 效 的 分 析 技 术 并 
不 是 本 节 中 讨论 的 内 容 ， 因 为 那 是 建立 在 必须 拥有 大 量 成 对 出 现 的 商品 信息 的 假设 基础 上 的 。 
我 们 将 在 11. 3 节 中 再 来 讨论 寻找 相互 关联 但 并 不 频繁 的 物品 对 的 问题 。 


11.1.2 基本 定义 

假设 我 们 有 物品 的 集合 7 和 购物 篮 的 集合 B。B 中 的 每 个 购物 篮 都 是 了 的 一 个 子 集 。 为 了 
讨论 频繁 的 物品 集合 ， 我 们 需要 一 个 支持 度 阅 值 (support threshold )s， 它 是 一 个 整数 。 如 果 一 个 
物品 集合 y S 7 了 在 至 少 * 个 购物 篮 中 出 现 (可 能 在 这 些 购物 篮 中 还 包含 其 他 物品 ) ， 那 么 我 们 称 这 


加 ”一 个 理论 : 如 果 你 买 了 尿布 ， 很 可 能 家 里 有 上 婴儿。 那么 ， 你 今 晚 就 不 能 去 酒吧 ， 因 此 很 可 能 在 超市 买 啤酒 回 家 
喝 。 
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个 物品 集合 1 是 频繁 的 。 可 选 地 ， 我 们 也 可 以 把 支持 度 : 表示 成 相对 于 1 B1 的 百分比 ， 其 中 
| Bl 是 购物 链 的 个 数 。 
例 11.1 假设 我 们 的 物品 集合 了 包括 了 6 部 电影 : 
| BI, BS, BU, HP1, HP2, HP3| 
分 别 代表 Bourne Identity (《 谍 影 重 重 》) . Bourne Supremacy (《 谍 影 重 重 2》) Bourne Ultimatum 
(《 谍 影 重 重 3》) 以 及 Harry Potter I、I、II(《 哈 利 波 特 1、2、3》) 。 图 11-1 中 的 表 给 出 了 8 个 观 
众 ( 即 装 物品 的 购物 篮 ) 以 及 他 们 所 看 过 的 电影 ， 其 中 x 表示 某 人 看 过 某 部 电影 。 





BS BU HPi HP2 HP3 

x x x 
x x x 

x x 
x x x x 
x x x x 
x x 

x x x 
x x x x x 














图 11-1 关于 观众 和 电影 的 市 场 - Wy eS 


假设 ;=3， 也 就 是 说 一 个 物品 集合 必须 至 少 是 3 个 购物 篮 的 子 集 ， 那 么 它 才 被 认为 是 频繁 的 
物品 集合 (或 者 称 为 频繁 项 集 ) 。 技 术 上 说 ， 因 为 空 集 是 任何 购物 篮 的 子 集 ， 所 以 它 是 频繁 的 ， 
但 我 们 对 此 不 感 兴趣 。 在 这 个 例子 中 ,除了 {HP3| 之 外 的 所 有 单元 集 都 出 现在 至 少 3 个 购物 篮 
Ho HEWN BI} REV. Vy, Vi, Vs, Vo AV, Po 

现在 考虑 哪些 二 元 集 ( 成 对 的 物品 ) 是 频繁 的 。 由 于 { HP31 自身 不 是 频繁 的 ， 因 此 它 不 会 是 
频繁 二 元 集 的 一 部 分 。 而 其 余 5 部 电影 构成 的 10 个 物品 对 都 有 可 能 是 频繁 的 。 比 如 {B17，BS} 是 
频繁 的 ， 因 为 它 出 现在 至 少 3 个 购物 篮 中 ， 事 实 上 确切 地 说 是 4 个 : VV. VS A Vo 

另外 ; 

e (BI, HPL} EKR, CBWE V, Va, Vs 和 V 中 。 

。 {BS, HP1| BBW, CERE V, V, V MV, Po 

。 [HP1，HP2| 298M, CBRE V, V V A V Po 


其 余 的 物品 对 都 不 是 频繁 的 。 

例子 中 还 存在 一 个 三 元 的 频繁 项 集 : (BI, BS, HPI), CHV, Vs AV 的 子 集 。 例 子 中 不 
存在 任何 大 小 大 于 3 的 频繁 项 集 。 口 
11.1.3 关联 规则 


针对 市 场 - 购物 篮 数 据 的 一 个 很 自然 的 问题 是 ， 在 顾客 的 购买 信息 中 隐藏 着 什么 规律 。 可 
以 这 么 说 ， 我 们 想 找到 成 对 的 商品 ， 购 买 了 第 一 件 商品 的 顾客 很 可 能 也 会 购买 第 二 件 。 更 一 般 
地 ， 人 们 购买 了 一 个 特定 的 商品 集合 后 很 可 能 也 想 购 买 另 一 件 特定 的 商品 。 这 个 想法 被 形式 地 
称 为 “关联 规则 ”。 

一 个 关联 规则 形式 化 的 表达 是 | ，i，…, ib = >j， 其 中 i 和 j 都 是 项 (物品 ) 。 这 样 一 个 单 
独 的 式 子 并 不 能 表明 什么 , Rit, 具有 了 以 下 三 条 性 质 就 使 得 这 个 形式 的 规则 对 于 我 们 有 用 : 

L 高 支持 度 : 对 这 个 关联 规则 的 支持 度 也 就 是 对 项 集 {i ，i。，…， 声 ， 咱 的 支持 度 。 

2. 高 置信 和 度 : ERABE |h, L, s hi 的 购物 篮 中 出 现 j 的 概率 大 于 某 个 立 值 ， 比 如 
50% ,或 者 说 “ 买 尿布 的 人 中 至 少 有 一 半 也 买 啤酒 ”。 

3. 有 趣 度 ;在 所 有 包含 i 和，i，…， 记 | 的 购物 锯 中 出 现 j 的 概率 明显 地 高 于 (或 者 低 于 ) 项 j 
在 任意 购物 篮 中 出 现 的 概率 。 从 统计 的 角度 讲 , Jh, hL, o Li 正 相 关 或 者 负 相 关 。 此 前 提 
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到 的 尿布 和 啤酒 的 关系 表明 的 是 关联 规则 | 尿布 = > 啤酒 具有 很 高 的 正 相关 的 有 趣 度 。 

需要 注意 的 是 ， 即 使 一 个 关联 规则 拥有 高 置信 度 或 高 有 趣 度 ， 如 果 它 没有 高 支持 度 ， 那 么 它 
也 是 没 用 的 。 原 因 是 如 果 支 持 度 低 ， 那 么 符合 这 个 规则 的 实例 个 数 不 多 ， 从 而 降低 了 针对 这 条 规 
则 制定 的 决策 的 效果 。 另 外 ， 十 分 重要 的 是 一 个 关联 规则 即使 具有 高 支持 度 、 高 置信 度 和 高 有 趣 
度 ， 也 不 要 把 它 混淆 成 因果 关系 。 举 例 来 说 ， 在 11. 1. 1 节 中 提 到 的 “啤酒 和 尿布 ”的 例子 说 明 关 
联 规则 {啤酒 | = > 尿布 具有 高 置信 度 , 但 是 这 并 不 表示 啤酒 “导致 "了 尿布 。 相 反 地 ， 那 个 理论 
说 明了 导致 购买 这 两 件 商品 的 “隐藏 变量 "一 一 家 中 的 婴儿 。 

例 11.2 根据 图 11-1 的 数据 ， 考 虑 如 下 关联 规则 ， 

{BI, BS} = >BU 

它 的 支持 度 为 2， 因 为 有 2 个 购物 篮 V AV, 包含 了 《 谋 影 重重 》 三 部 曲 。 这 个 规则 的 置信 度 为 1/2， 
因为 有 4 MAME Aas T BIA BS, MAPA 2 个 还 包含 了 BU。 这 个 规则 具有 微弱 的 正 相关 
有 趣 度 。 具 体 地 说 ，BU 在 所 有 购物 篮 中 出 现 的 概率 是 3/8， 而 在 同时 包含 了 式 子 左边 项 ( 即 1B1， 
BS} ) 的 购物 篮 中 它 出 现 的 概率 是 1/2。 口 

由 于 高 支持 度 是 一 个 有 用 的 关联 规则 的 必要 条 件 ， 寻 找 高 置信 度 或 者 高 有 趣 度 的 关联 规则 
实质 上 就 是 要 寻找 具有 高 支持 度 的 项 集 。 一 旦 我 们 得 到 了 这 些 项 集 , 我 们 可 以 考虑 将 每 个 项 集 
中 的 每 一 项 放 到 式 子 右边 所 得 到 的 关联 规则 。 在 寻找 频繁 项 集 的 过 程 中 ， 我 们 很 可 能 已 经 统计 
过 某 个 频繁 项 集 的 子 集 ， 因 为 这 些 子 集 本 身 也 是 频繁 的 。 如 果 这 样 ， 我 们 可 以 很 轻松 地 计算 出 每 
个 潜在 的 关联 规则 的 置信 度 和 有 趣 度 。 于 是 ， 我 们 应 该 (也 是 后 文正 要 做 的 ) 把 寻找 关联 规则 的 
问题 搁置 一 边 ， 而 专注 于 研究 寻找 频繁 项 集 的 高 效 方法 。 


11.1.4 频繁 项 集 的 计算 模型 
既然 我 们 在 研究 数据 库 系统 ， 我 们 的 第 一 个 想法 可 能 是 把 市 场 - 购物 篮 数 据 存储 在 一 个 关 
系数 据 库 中 。 例 如 : 


Baskets(basket , item) 


包含 了 成 对 的 购物 篮 ID 和 该 购物 篮 中 的 一 件 物品 的 站。 原则 上 ， 我 们 可 以 通过 一 个 SQL 查询 语 
名 来 得 到 频繁 项 集 ， 例如 图 11-2 得 到 了 所 有 频繁 SELECT I.item, J.item, COUNT(I.basket) 
二 元 集 。 它 将 Baskets 表 和 自身 连接 ， 并 根据 结 FROM Baskets I, Baskets J 
果 中 每 个 元 组 中 的 两 个 物品 进行 分 组 ， 再 将 购物 | WHERE basket = J basket AND 
SECA TCH» KARAR EE |m BT Ete, ee 
WHERE 子 句 中 的 条 件 语 句 L item <J. item 是 为 了 
防止 同一 对 物品 以 两 个 顺序 被 考虑 ， 或 者 说 防止 图 11-2 找 出 所 有 高 支持 度 的 物品 对 的 朴素 方法 
相同 物品 构成 的 “对 ”被 计算 两 次 。 

然而 ， 如 果 关 系 Baskets 规模 很 大 ， 那 么 建立 自身 的 连接 将 占用 过 大 的 空间 ,或 者 至 少 消耗 
过 长 的 时 间 。 无 论 我 们 采用 多 人 么 高 效 的 连接 方法 ， 在 结果 的 关系 中 总 会 包含 每 个 购物 篮 中 所 有 
物品 对 构成 的 元 组 。 举 例 来 说 ， 如 果 有 1 000 000 个 购物 篮 ， 每 个 购物 篮 包 含 20 个 物品 ， 那 么 连 


接 后 就 会 有 190 000 000 个 元 组 ( 因为 { 2 ] -190) 。 在 11.2 节 我 们 可 以 看 到 ， 通 过 对 关系 Baskets 


进行 预 处 理 ， 经 常 可 能 把 连接 做 得 更 好 。 

但 是 事实 上 ， 把 市 场 - 购物 篮 数 据 存储 在 关系 数据 库 中 并 不 是 一 个 常用 的 方法 。 更 为 有 效 
的 方法 是 把 数据 放 在 一 个 或 多 个 文件 中 ， 并 以 一 定 顺序 存放 购物 篮 数 据 。 每 个 购物 篮 表示 成 它 
所 含 物品 的 列表 ， 并 用 某 个 符号 分 隔 购物 篮 。 
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例 11.3 图 11-1 中 的 数据 可 以 表示 成 一 个 文件 ， 它 的 开头 是 : 
{BI ,BS,BU}{HP1,HP2,HP3}{BI,HP1}{BI,BS,HP1,HP2}{... 


在 这 里 ， 我 们 用 大 括号 来 表示 购物 复 ， 并 用 逗号 分 隔 一 个 购物 篮 中 的 不 同 物品 。 口 

当 市 场 - 购物 篮 数据 数据 表示 成 这 种 形式 后 ， 算 法 的 代价 就 相当 容易 估计 了 。 因 为 我 们 感 
兴趣 的 只 是 那些 数据 规模 大 到 主 存 无 法 容纳 的 情况 ， 所 以 我 们 可 以 通过 对 磁盘 /0 的 计数 来 衡量 
复杂 度 。 

然而 ,实际 情况 甚至 比 磁盘 VO 计数 更 简单 。 所 有 寻找 频繁 项 集 的 成 功 的 算法 都 以 固定 的 顺 
序 多 次 读 取 数据 文件 。 它 们 这 样 多 趟 地 处 理 数据 ， 而 每 一 趟 数据 处 理 后 为 下 一 趟 准备 的 结果 都 
小 到 足够 能 在 主 存 中 保存 。 于 是 ， 我 们 甚至 可 以 不 必 对 磁盘 WO 计数 ， 而 只 需 计 算 一 下 扫描 全 部 
数据 的 趟 数 就 足够 了 。 











11.1.5 习题 
习题 11. 1. 1 “假设 我 们 有 如 图 11-3 所 示 的 8 个 "购物 篮 "。 
a) 物 品 集合 | 啤酒， 牛奶 | 的 支持 度 以 购物 馆 总 数 的 百分比 形式 表示 是 oe FATRA] 
多 少 ? Bo = [牛奶 ,百事 可 乐 ,果汁 } 
b) 物 品 集合 1 可口可乐， 百事 可 乐 | 的 支持 度 是 多 少 ? Ba = (Ca) 
o) 啤酒 对 牛奶 的 置信 度 是 多 少 (也 就 是 关联 规则 | 牛奶 | = > 啤酒)? = (牛奶 ,百事可乐 , 啤酒 ) 
REED Ba = [EDER RE, EENS 
d) 牛奶 对 果汁 的 置信 度 是 多 少 ? By = area 
e) 百 事 可 乐 对 {啤酒 ， 牛 奶 } 的 置信 度 是 多 少 ? = { 啤 酒 ,百事 可 乐 } 
f) 如 果 支 持 度 阔 值 是 25% (也 就 是 8 个 购物 锯 中 需要 2 个 ) ， 哪 些 物品 
对 是 频繁 的 ? 图 11-3 市 场 -购物 篮 样 例 数据 


g) 如 果 支 持 度 阔 值 是 37.5% ， 哪 些 物品 对 是 频繁 的 ? 
1h) 在 所 有 式 子 左边 是 单元 集 的 关联 规则 中 ， 哪 一 条 是 有 趣 度 最 大 的 ? 


11.2 发 现 频 繁 项 集 的 算法 


现在 ,我 们 开始 研究 对 于 某 个 规模 的 数据 寻找 它 的 频繁 项 集 需 要 访问 数据 多 少 趟 。 首 先 ， 我 
们 讨论 为 什么 在 实际 应 用 中 发 现 频繁 的 二 元 集 经 常 成 为 瓶 项 。 然 后 ， 我 们 介绍 A-Prior 算法 一 一 
在 多 趟 访问 数据 的 算法 中 最 小 化 占用 内 存 大 小 的 关键 一 步 。 最 后 介绍 一 些 在 A-Priori 算法 基础 上 
的 改进 ， 在 第 一 趟 访问 时 更 好 地 使 用 主 存 ， 从 而 使 得 在 算法 不 超过 主 存 容 量 限 制 的 情况 下 更 可 
行 地 完成 此 后 几 趟 的 访问 。 


11.2.1 频繁 项 集 的 分 布 

如 果 我 们 让 支持 度 阐 值 *=1， 那 么 在 每 个 购物 篮 中 所 有 的 项 集 都 是 “频繁 的 ”， 从 而 即使 仅 
仅 把 结论 表示 出 来 也 是 不 可 行 的 。 然 而 ， 在 类 似 的 商店 销售 管理 这 样 的 例子 中 ， 很 小 的 支持 度 阐 
值 是 没有 用 的 。 此 前 我 们 说 过 ， 我 们 需要 很 多 顾客 都 购买 了 同一 些 商品 才能 很 好 地 利用 这 一 数 
据 。 而 且 ， 任 何 针对 市 场 - 购物 篮 数据 的 挖掘 必须 产生 较 少 数量 的 结论 ， 比 如 说 几 十 或 几 百 个 。 
如 果 我 们 没有 得 到 任何 结论 ， 那 么 我 们 什么 也 做 不 了 ; 但 如 果 我 们 得 到 了 数 百 万 条 结论 ， 那 么 我 
们 根本 看 不 完 它们 ， 更 别 说 利用 它们 去 做 营销 。 

这 个 推理 的 结果 就 是 支持 度 阔 值 必须 设置 得 足够 大 ， 使 得 频繁 项 集 较 少 。 典 型 地 ， 支 持 度 阔 
值 经 常 被 设置 为 购物 篮 总 数 的 1% 。 由 于 一 个 项 集 是 频繁 的 概率 随 着 项 集 增 大 而 快速 减 小 ， 所 以 
大 多 数 的 频繁 项 集 规模 都 较 小 。 然 而 ， 一 个 只 含 一 项 的 频繁 项 集 通 常 是 无 用 的 ， 我 们 需要 至 少 含 
有 两 项 的 频繁 项 集 ， 以 便 应 用 市 场 营销 的 技术 (例如 在 1 1. 1 节 中 提 到 的 方法 ) 。 

我 们 的 结论 是 : 在 实际 运用 算法 去 寻找 频繁 项 集 时 ， 我 们 需要 选择 合适 的 支持 度 冰 值 ， 使 得 
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二 元 频繁 项 集 的 个 数 较 少 并 且 极 少 存在 含有 更 多 项 的 频繁 项 集 。 于 是 ， 我 们 的 算法 将 集中 在 如 
何 通 过 若干 趟 的 数据 访问 来 寻找 二 元 频繁 项 集 。 如 果 需 要 更 大 的 频繁 项 集 ， 寻 找 二 元 频繁 项 集 
过 程 中 的 计算 资源 也 足以 用 来 寻找 数量 较 少 的 三 元 频繁 项 集 、 四 元 频繁 项 集 等 。 


如 果 物 品 的 编号 不 便于 计算 怎么 办 ? 

我 们 假设 所 有 物品 的 编号 都 是 从 0 开始 的 整数 。 然 而 ， 在 实际 中 ,物品 的 编号 可 能 是 一 
个 很 长 的 ID 或 者 全 名 。 如 果 这 样 ， 我们 需要 在 主 存 中 保存 一 个 散 列 表 记 录 每 个 物品 的 实际 纺 
SHOR K-1 中 唯一 的 整数 的 对 应 关系 。 这 个 表 消 耗 的 主 存 空间 和 物品 个 数 上 成 正比 。 在 物 
品 数 量 相对 主 存 大 小 不 是 很 小 的 情况 下 ， 没 有 任何 算法 能 发 现 二 元 (或 者 更 大 规模 的 ) MED 
集 。 因 此 ， 我 们 可 以 忽略 一 个 可 能 需要 用 到 的 大 小 和 物品 数量 成 正比 的 主 存 中 的 表 。 

















11.2.2 寻找 频繁 项 集 的 朴素 算法 

我 们 假设 主 存 大 小 为 某 个 固定 值 政 字 节 ， 可 能 是 1G、166G 或 者 我 们 的 机 器 所 拥有 的 任何 主 
存 大 小 。 同 时 假设 在 我 们 的 市 场 - 购物 篮 数据 中 有 上 种 不 同 的 商品 ， 编 号 为 0，1 ，…, -1。 最 
后 ， 就 像 11.2. 1 节 中 说 的 ， 我 们 的 重点 集中 在 二 元 频繁 项 集 ， 因 为 我 们 假设 那 是 主 存 的 瓶颈 
所 在 。 

如 果 主 存 大 小 足够 在 我 们 扫描 一 遍 购 物 篮 的 同时 对 物品 对 的 个 数 进行 计数 ， 那 么 我 们 就 能 
通过 一 趟 访问 解决 二 元 频繁 项 集 的 问题 。 在 这 一 趟 扫描 时 ， 我 们 每 次 读 取 数据 文件 中 的 一 个 块 。 
我 们 可 以 忽略 在 主 存 中 保存 这 样 -一 块 数据 所 占用 的 空间 (甚至 购物 篮 包含 两 块 或 更 多 块 数据 时 我 
们 需要 读 人 的 多 块 数据 空间 ) ， 因 为 我 们 假设 表示 一 个 购物 篮 所 需 的 空间 和 M 相 比 是 微小 的 。 对 
于 这 个 块 中 包括 的 所 有 购物 篮 ， 我 们 对 它 的 商品 进行 两 重 循环 ， 然 后 对 这 个 购物 篮 中 的 所 有 商 
品 对 ， 我 们 将 该 商品 对 的 计数 加 一 。 

我 们 面 对 的 根本 问题 是 如 何在 M 个 字 节 的 主 存 中 存储 商品 对 的 计数 值 。 有 两 种 合理 的 方法 ， 
至 于 娜 一 种 更 好 这 取决 于 商品 对 出 现 的 次 数 很 多 还 是 很 少 。 在 后 文中 ,我们 做 一 个 简化 的 假 
设 一 一 所 有 整数 (无 论 表 示 商 品 ID 或 者 计数 值 ) 都 占 4 个 字 节 。 下 面 就 是 两 种 保存 计数 值 的 针 锋 
相对 的 方法 。 

Zø 

如 果 绝 大 多 数 可 能 的 商品 对 都 在 数据 集中 出 现 至 少 一 次 ， 那 么 三 角形 数组 就 是 最 有 效 的 使 
用 主 存 的 方法 。 具 体 说 ,假设 4 是 一 个 包含 了 所 有 主 存 空间 的 一 维 整 数 数组 。 我 们 将 商品 对 (i， 
DHO Sij k) FAE aln], FF: 

n=(itj)’/4+i-1/4 4i+j 是 奇数 时 
n=(itj’/4+i X itj 是 偶数 时 
当 每 个 计数 值 占 4 字 节 时 ， 只 要 必 宇 2 ， 就 有 足够 的 空间 存放 数组 a。 注意 ， 这 种 方法 只 用 了 正 
方形 数组 所 需 空间 的 一 半 ， 因 为 我 们 只 用 了 上 三 角 或 下 三 角 部 分 来 对 商品 对 (i, 门 计数 (i <j)。 
计数 表格 

如 果 商 品 对 出 现 的 可 能 性 很 小 ， 那么 我 们 可 以 用 比 0( 及 ) 更 少 的 空间 。 我 们 创建 一 个 散 列 
R, 包含 三 元 组 (i, j, c)， 其 中 i<j, HAL, 诈 是 一 个 确实 出 现在 一 个 或 多 个 购物 篮 中 的 项 
R, c 是 它 的 计数 值 。 我 们 对 (i, J) 进行 散 列 操作 来 寻找 保存 这 个 项 集 的 桶 的 位 置 。 

一 个 三 元 组 (i, j,，c) 占 用 12 个 字 节 ， 所 以 我 们 可 以 保存 M/12 个 商品 对 的 计数 值 S。 换 另 





无 论 我 们 使 用 何 种 散 列表 ， 总 会 有 些 额外 的 代价 ， 对 此 我 们 可 以 忽略 。 举 例 来 说 ， 如 果 我 们 采用 开放 散 列 的 方 
法 ， 那么 通常 需要 将 桶 的 一 小 部 分 留 空 以 降低 平均 的 查询 时 间 。 
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一 种 说 法 ， 如 果 数 据 中 总 共 出 现 p 个 商品 对 ， 那 么 我 们 至 少 需要 MS12p 的 主 存 大 小 。 

注意 ， 如 果 有 种 不 同 的 商品 ， 那 么 总 共 可 能 的 商品 对 大 约 为 万 /2。 如 果实 际 商品 对 数目 
P= 如 /2， 那 么 计数 表格 需要 的 主 存 空 间 是 三 角 和 矩阵 的 3 倍 ; 如 果 只 有 173 的 商品 对 真正 出 现 
了 ， 那 么 两 种 方法 所 需 的 主 存 空间 相等 ; 如 果 商 品 对 出 现 的 可 能 性 小 于 1/3， 那么 计数 表格 
更 好 。 

关于 朴素 算法 的 额外 注释 

概括 地 说 ， 当 主 存 大 小 性 超过 2k 或 者 12p 时 ， 我 们 可 以 使 用 朴素 的 、 一 趟 访问 的 算法 来 寻 
找 频 繁 的 二 元 组 ， 这 里 的 天 是 商品 的 数目 ，p 是 至 少 出 现在 一 个 购物 链 中 的 商品 对 的 数目 。 

相同 的 方法 可 以 运用 在 对 三 元 组 进行 计数 中 ， 只 要 主 存 空间 是 够 存放 所 有 可 能 的 三 元 组 ， 
或 者 所 有 实际 出 现 的 三 元 组 。 同 样 ， 我 们 可 以 对 四 元 组 以 及 任何 大 小 的 项 集 进 行 计数 ， 尽 管 随 着 
项 集 的 大 小 增加 ， 主 存 足 够 存放 所 有 项 集 的 可 能 性 在 下 降 。 我 们 把 所 需 主 存 大 小 的 计算 公式 留 
作 习 题 。 . 


11.2.3 A-Priori 算法 

A-Priori 算法 是 寻找 大 小 为 n(n 可 以 是 任何 值 ) 的 频繁 项 集 的 方法 ， 通 过 n 趟 扫描 完成 。 它 
在 通常 情况 下 需要 的 主 存 空 间 比 朴素 算法 少 很 多 ， 并 且 当 支持 度 立 值 取 得 足够 大 以 至 于 某 些 单 
元 和 集 都 不 是 频繁 的 时 候 ， 它 必定 占用 更 少 的 主 存 空 间 。 频 繁 项 集 的 单调 性 是 确保 算法 工作 的 重 
要 因素 。 也 就 是 : 

。 如 果 项 集 5 是 频繁 的 ， 那 么 它 的 所 有 子 集 也 都 是 频繁 的 。 

上 面 这 句 话 的 正确 性 很 容易 证 明 。 如 果 项 集 $ 是 至 少 * 个 购物 篮 的 子 集 (s 是 支持 度 靖 值 ) ， 并 且 
TCS, 那么 了 也 一 定 是 包含 $ 的 那些 购物 篮 的 子 集 ， 当 然 了 可 能 也 是 其 他 一 些 购物 篮 的 子 集 。 
实际 上 ， 这 一 单调 性 是 以 反 向 的 形式 被 使 用 的 : 

。 如 果 项 集 5 不 是 频繁 的 ， 那么 任何 它 的 超 集 都 不 是 频繁 的 。 

在 第 一 趟 扫描 时 ，A-Priori 算法 只 对 商品 构成 的 单元 集 进行 计数 。 如 果 某 些 集合 本 身 不 是 
频繁 的 ， 那 么 那些 商品 就 不 会 包含 在 任何 频繁 的 商品 对 中 。 于 是 ， 在 第 二 趟 扫描 时 ， 非 频繁 
的 商品 都 可 以 被 忽略 ， 而 只 需 对 两 种 商品 都 是 频繁 的 商品 对 进行 计数 。 举 例 来 说 ， 如 果 只 有 
一 半 的 商品 是 频繁 的 ， 那 么 我 们 只 需 对 1/4 的 商品 对 进行 计数 ， 所 以 我 们 只 是 用 了 1/74 的 主 存 
空间 。 或 者 换 一 种 说 法 ， 在 国定 主 存 空 间 的 情况 下 ， 我们 可 以 处 理 两 倍 于 原先 数据 量 的 数 
据 集 。 

我 们 可 以 再 用 一 趟 扫描 来 继续 构造 频繁 的 三 元 集 ， 再 一 趟 扫描 得 到 频繁 的 四 元 集 ， 以 此 类 
推 , 我 们 能 得 到 任意 大 小 的 存在 的 频繁 项 集 。 一 般 地 ， 在 第 n 趟 扫描 时 ， 我 们 从 一 个 候选 集合 
C, 出 发 ， 然 后 我 们 生成 一 个 C, 的 子 集 F,， 它 包含 大 小 为 n 的 频繁 项 集 。 具 体 地 说 ，C, 是 所 有 
ATE, F 是 那些 频繁 的 单元 集 ; C 是 所 有 二 元 集 ，F, 是 那些 频繁 的 二 元 集 ; 第 三 趟 扫描 的 候 
选集 合 C; 包 合 三 元 集 {i, j,k ， 其 中 每 个 二 元 集 |i, J}, (i, kii, kh 都 包含 在 Po FE 
给 出 算法 正式 的 描述 。 

A-Priori 算法 

输入 XEDAST RAMEE. ZARA s, MERRAAD ERG. 

WH —-ARWWABHEEP,, F, 0, Fo REF AAAKDWi LEDERE sA E 
中 的 项 集 所 构成 的 集合 。 

方法 执行 图 11-4 所 示 的 算法 并 且 输 出 所 有 频繁 项 集 构成 的 集合 下 ,其 中 n=1, 2， 
.go 
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1) LET C, = all items that appear in file F; 
2) FOR n := 1 TO g DO BEGIN 


3) Fa := those sets in C, that occur at least 
3 times in D; 
4) IF n = q BREAK; 
5) LET Cn+1 = all itemsets 9 of size n+1 such that 


every subset of S of size n is in F,; 





END | 





图 11-4 A-Priori 算法 


例 11.5 我 们 对 图 11-1 中 的 数据 使 用 A-Priori 算法 ， 令 支持 度 阔 值 * =4。 开 始 时 ，C, 是 所 
有 6 部 电影 的 集合 。 在 第 一 趟 扫描 时 ， 我 们 对 单元 集 进行 计数 ， 然 后 发 现 BI, BS. HPI 和 HP2 
出 现 了 至 少 4 次 ， 而 另 两 部 电影 不 是 。 于 是 ， 书 ={BI, BS, HPI, HP2), mi C, 是 从 这 4 部 电影 
中 选 2 部 构成 的 6 个 二 元 集 构成 的 集合 。 

在 第 二 趟 扫描 时 ， 我 们 只 对 这 6 对 电影 进行 计数 ， 然 后 发 现 F, = {{ BI, BS}, | HPI, 
PP21 ，{B81，HP1| ，1BS，HP11 ， 而 另 两 对 不 是 频繁 的 。 假 设 * >2， 于 是 我 们 继续 寻找 频繁 三 
LR. C, 只 包含 三 元 集 | 81，B3，HZP1} ， 因 为 它 是 仅 有 的 所 有 二 元 对 都 包含 在 F, 中 的 三 元 集 。 
然而 ， 这 三 部 电影 仅仅 共同 出 现在 三 行 中 : Vi, Vs AV. FE, F, WER, AME” 多 大 ， 
再 也 没有 更 多 的 频繁 项 集 存在 了 。 算 法 返回 F, UF, o 口 


11.2.4 A-Priori 算法 的 实现 

图 11-4 仅仅 是 算法 的 大 致 描述 ， 我 们 必须 仔细 考虑 算法 的 每 一 步 如 何 实现 。 算 法 的 核心 ， 
同时 也 是 我 们 需要 实现 的 ， 是 第 3 行 ， 我 们 需要 在 每 次 循环 时 都 扫描 一 趟 输入 数据 。 第 1、5 行 
的 赋值 语句 只 是 定义 了 C, 是 什么 ， 而 没有 说 明 赋 值 具 体 如 何 执行 。 也 就 是 说 ， 当 我 们 访问 购物 
篮 ， 执 行 第 3 行 时 ，C, 的 定义 告诉 我 们 哪些 大 小 为 n 的 集合 需要 在 主 存 中 进行 计数 ， 哪 些 不 需 
要 进行 计数 。 

对 于 每 一 趟 扫描 ， 只 有 当主 存 大 小 足够 容纳 需要 进行 计数 的 候选 集合 时 ， 算 法 才能 正确 地 
执行 。 如 果 主 存 不 够 大 ， 那 么 要 么 使 用 一 种 更 有 空间 效率 的 算法 ， 要 么 对 于 一 个 n 值 必须 进行 多 
MMA; Sl, ARASH Ha MR, Ree 一 超 扫描 中 页 面 频繁 地 移 进 移出 主 存 ， 从 
而 造成 运行 时 间 的 剧 增 。 

我 们 可 以 使 用 在 11.2.2 节 中 讨论 的 任意 一 种 方法 ， 来 安排 每 趟 扫描 时 计数 结果 在 内 存 中 的 
组 织 形 式 。 由 于 频繁 的 商品 很 可 能 不 是 按照 0，1，… 直 到 频繁 商品 的 个 数 标号 的 ， 因 此 在 第 二 
趟 扫描 时 能 够 使 用 三 角 和 矩阵 的 方法 似乎 不 是 那么 显而易见 。 然 而 ， 在 第 一 趟 扫描 发 现 了 频繁 的 
商品 后 ， 我 们 可 以 构造 一 个 很 小 的 表 存 放 在 主 存 中 ( 表 的 大 小 不 超过 频繁 的 商品 集合 本 身 ) ， 用 
来 把 发 现 的 频繁 商品 原始 的 商品 编号 转换 成 连续 的 标号 。 项 计数 频繁 项 
11. 2.5 更 好 地 使 用 主 存 en ee ee 


我 们 预计 算法 11.4 的 主 存 瓶 颈 在 第 二 趟 扫描 时 出 现 
也 就 是 当 n=2 且 执 行 图 11-4 的 第 3 行 时 出 现 。 也 就 是 说 ， 
我 们 假设 对 候选 二 元 集 进 行 计 数 比 对 候选 三 元 集 、 四 元 集 候选 对 计数 
或 者 更 大 的 集合 进行 计数 所 需 的 空间 更 大 。 于 是 ， 让 我 们 
专注 于 如 何在 第 二 趟 扫描 时 减少 候选 二 元 集 的 数量 。 首 
先 ， 图 11-5 展示 了 A-Priori 算法 第 二 趟 扫描 时 典型 的 主 存 第 1 趟 第 2 趟 
使 用 情况 。 图 11-5 A-Priori 算法 的 主 存 使 用 情况 




















338 BAH BRKBERREM 


在 第 一 越 扫 描 时 (n =1) ,我 们 只 需要 空间 对 所 有 商品 进行 计数 ， 相 对 于 对 商品 对 进行 计数 
时 使 用 的 空间 而 言 ， 这 是 很 小 的 。 在 第 二 趟 扫描 时 (n=2) ， 我 们 需要 进行 计数 的 是 频繁 的 商品 ， 
而 预期 这 一 般 比 第 一 趟 扫描 时 进行 计数 所 占 空 间 更 小 。 所 有 的 可 用 空间 都 被 投入 用 于 对 候选 二 
元 集 进 行 计数 。 

为 了 减少 第 二 趟 扫描 时 候选 二 元 集 的 数目 ， 我 们 是 否 可 以 使 用 第 一 趟 扫描 时 未 使 用 的 主 存 
空间 来 做 些 什 么 ? 如 果 可 以 ， 对 于 固定 主 存 大 小 的 机 器 ， 我 们 可 以 处 理 频 繁 二 元 集 的 数量 更 大 的 
数据 集 。PCY 算法 “利用 这 块 未 使 用 的 主 存 来 完整 地 存放 一 个 不 同 寻常 的 散 列表 。 这 个 散 列表 中 
的 “ 桶 ”不 保存 商品 对 或 者 其 他 的 信息 ， 而 只 保存 一 个 占 4 字 节 的 计数 值 。 我 们 甚至 可 以 用 只 占 2 
字 节 的 桶 ， 因 为 如 果 支 持 度 冰 值 小 于 2”， 一 旦 计数 值 超过 了 冰 值 ， 我 们 就 无 需 再 去 关心 它 的 具 
体 大 小 了 。 

在 第 一 趟 扫描 检查 所 有 购物 篮 时 ， 我 们 不 但 为 购物 篮 中 的 单个 商品 计数 ， 还 将 每 个 商品 对 
散 列 到 对 应 的 桶 中 ， 并 将 该 桶 中 的 计数 加 一 。 我 们 所 期 待 的 是 某 些 桶 最 终 的 计数 值 小 于 支持 度 
阅 值 *。 如 果 确 实 如 此 ， 那 么 我 们 便 知道 所 有 散 列 到 那些 桶 中 的 商品 对 人生， 媳 都 不 可 能 是 频繁 的 ， 
即使 商品 i 和 j 各 自 都 是 频繁 的 。 

在 第 一 趟 和 第 二 越 扫描 之 间 ， 我 们 把 这 些 桶 替换 成 每 个 桶 对 应 一 个 二 进 制 位 的 位 图 。 如 果 
对 应 的 桶 是 频繁 桶 ， 也 就 是 这 个 桶 的 计数 值 至 少 为 支持 度 阐 值 ;， 则 该 位 为 1; 否则 为 0。 一 个 占 
32 位 (4 字 节 ) 的 桶 被 替换 成 了 1 位 ， 因 此 在 第 二 趟 扫描 时 ， 这 个 位 图 大 约 只 占用 1/32 的 主 存 空 
间 。 在 第 二 趟 扫描 时 ，PCY 算法 能 够 用 来 计数 的 可 用 空间 几乎 和 A-Priori 算法 一 样 大 。 图 11-6 展 
示 了 前 两 趟 扫描 时 PCY 算法 的 主 存 使 用 情况 。 

在 第 二 趟 扫 措 时， 全 , J EREZTE, SERY 
它 满足 以 下 条 件 : 

1. i 和 j 都 是 频繁 商品 。 

2. 位 图 中 的 信息 告诉 我 们 |i, 让 被 散 列 到 了 一 个 频 
Fi 
然后 ， 在 第 二 趟 扫描 时 ， 我 们 可 以 只 对 这 个 候选 二 元 集 
的 集合 进行 计数 ， 而 不 必 如 A-Priori 算法 描述 的 对 所 有 
仅 满 足 第 一 个 条 件 的 二 元 集 进行 计数 。 


11.2.6 何 时 使 用 PCY 算法 

在 PCY 算 法 中 ， 候 选 二 元 集 十 分 不 规律 ， 因 此 我 
们 不 能 使 用 三 角 和 矩阵 的 方法 存储 计数 值 ， 而 必须 使 用 计 
数 表格 的 方法 。 于 是 ， 如 果 候 选 二 元 集 个 数 不 能 减少 到 所 有 可 能 的 二 元 集 的 1/3， 那 么 使 用 PCY 
算法 便 毫 无 意义 。 如 果 有 必要 的 话 ，PCY 算法 在 第 二 趟 扫描 之 后 可 以 采用 同 A-Priori 算法 相同 的 
步骤 去 执行 。 

另外 ， 为 了 使 PCY 算法 效率 高 于 A-Priori 算法 ， 那 么 在 第 一 趟 扫描 时 必须 有 很 多 桶 不 是 频繁 
的 。 因 为 如 果 大 多 数 桶 都 是 频繁 的 ， 那 么 根据 条 件 3 排除 的 二 元 集 就 相当 有 限 了 。 对 于 任意 一 个 
桶 ， 只 要 散 列 到 其 中 的 二 元 集中 有 一 个 是 频繁 的 ， 那 么 这 个 桶 就 是 频繁 的 ; 然而 ， 即 使 散 列 到 这 
个 桶 中 的 所 有 二 元 集 都 不 是 频繁 的 ， 只 要 这 些 二 元 集 的 计数 值 之 和 超过 支持 度 阐 值 *， 这 个 桶 也 
有 可 能 是 频繁 的 。 一 个 简单 的 估计 ， 如 果 桶 的 平均 计数 值 小 于 ;， 那么 我 们 可 以 期 望 至 少 有 一 半 
的 桶 是 不 频繁 的 ， 这 也 表明 了 PCY 算法 的 优势 。 相 反 地 ， 如 果 桶 的 平均 计数 值 大 于 *， 那 么 大 多 














第 1 越 第 2 趟 
图 11-6 PCY 算法 的 主 存 使 用 情况 





”该 算法 由 三 位 作者 JS. Park, M. - S. Chen 和 了 . S. Yu 的 名 字 而 得 名 。 
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数 桶 将 是 频繁 的 。 

假设 所 有 在 数据 集中 出 现 的 二 元 集 的 计数 值 之 和 为 P。 由 于 几乎 所 有 的 主 存 空间 M 都 能 
被 用 于 桶 的 存放 ， 所 以 桶 的 数目 大 约 为 M/A4。 那 么 ， 桶 的 平均 计数 值 为 4PAM。 为 了 使 许多 桶 
都 不 是 频繁 的 ， 那 就 必须 4PAM <s, 或 者 M>4P/s。 后 面 的 习题 会 让 你 研究 一 些 更 具体 的 
例子 。 


11. 2.7 多 级 算法 

在 第 二 趟 扫描 时 ， 我 们 可 以 使 用 和 PCY 算法 中 相同 的 桶 的 技术 (用 一 种 不 同 的 散 列 函数 ) 来 
BER A - Priori 算法 或 者 PCY 算法 中 的 二 元 集 的 计数 。 在 第 二 趟 扫描 时 ， 为 了 让 桶 的 平均 计数 值 
更 小 ， 只 有 当 一 个 二 元 集 满足 了 在 PCY 算法 的 第 二 趟 扫描 时 被 计数 的 条 件 时 ， 我 们 才 会 去 考虑 
它 。 这 里 所 说 的 条 件 ， 具 体 说 就 是 ， 这 个 二 元 集中 的 两 个 商品 都 是 频繁 的 ， 并 且 这 个 二 元 集 在 第 
一 趟 扫描 时 被 散 列 到 了 一 个 频繁 的 桶 中 。 

这 个 思想 导致 了 寻找 频繁 二 元 集 的 三 趟 扫描 的 多 级 算法 的 产生 。 图 11-7 是 这 个 算法 的 示意 
图 。 算 法 的 第 一 趟 扫描 、 选 出 频繁 的 商品 以 及 第 一 和 第 二 趟 扫描 之 间 把 桶 的 信息 存储 到 位 中 的 
过 程 都 和 PCY 算法 一 致 。 











图 11-7 三 趟 扫描 的 多 级 算法 的 主 存 使 用 情况 


然而 ， 在 第 二 趟 扫描 时 ， 我 们 再 次 把 二 元 集散 列 到 桶 中 ， 并 且 用 所 有 可 用 的 主 存 来 存放 尽 可 
能 多 的 桶 。 因 为 在 第 二 趟 扫描 时 已 有 一 个 位 图 存放 在 了 主 存 中 ， 而 这 个 位 图 把 4 字 节 (32 位 ) 压 
缩 到 1 位 中 ， 所 以 在 第 二 趟 扫描 时 主 存 能 够 容纳 的 桶 的 数目 大 约 是 第 一 趟 扫描 时 的 31/32。 在 第 
二 趟 扫描 时 ， 我 们 使 用 一 种 不 同 于 第 一 趟 使 用 的 散 列 函数 。 我 们 把 二 元 集 和 ,站 散 列 到 对 应 桶 中 
并 将 计数 值 加 一 ， 当 且 仅 当 ; 

1. i 和 /都 是 频繁 商品 。 

2. 在 第 一 趟 扫描 时 |， 媳 被 散 列 到 了 一 个 频繁 桶 (这 个 结果 可 以 根据 查询 位 图 得 到 ) 。 
也 就 是 说 ， 我 们 只 对 那些 在 PCY 算法 的 第 二 趟 扫描 时 进行 计数 的 二 元 组 进行 散 列 。 

在 第 二 和 第 三 趟 扫描 之 间 ， 我 们 把 第 二 趟 扫描 时 的 桶 压缩 到 另 一 个 位 图 中 ， 并 和 第 一 个 位 
图 以 及 频繁 单元 集 一 起 存放 在 主 存 中 。 在 第 三 趟 扫描 时 ， 我 们 最 终 对 候选 二 元 集 进行 计数 。{i， 
几 是 候选 二 元 集 ， 当 且 仅 当 它 满足 如 下 条 件 : 

1. i 和 7 都 是 频繁 商品 。 

2. 在 第 一 趟 扫描 时 ，|i, 媳 被 散 列 到 了 一 个 频繁 桶 (这 个 结果 可 以 根据 查询 第 一 个 位 图 得 
到 ) 。 

3. 在 第 二 趟 扫描 时 ，{i, 则 被 散 列 到 了 一 个 频繁 桶 (这 个 结果 可 以 根据 查询 第 二 个 位 图 得 
到 )。 
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正如 PCY 算法 那样 ， 如 果 需 要 的 话 ， 后 续 的 寻找 频繁 三 元 集 或 者 更 大 频繁 项 集 的 扫描 可 以 使 用 
和 A-Priori 算法 相同 的 方法 。 

第 3 个 条 件 经 常 可 以 排除 很 多 通过 了 前 两 个 条 件 判 断 的 二 元 集 。 一 个 原因 是 ,在 第 二 趟 
扫描 时 ， 不 是 所 有 二 元 集 都 被 散 列 到 桶 中 ， 因 此 桶 的 计数 值 变 得 比 第 一 趟 扫描 时 更 小 ， 最 终 
结果 是 更 多 的 桶 变 成 非 频繁 的 。 另 一 个 原因 是 ， 由 于 两 趟 扫描 采用 的 散 列 函数 不 同 ， 那 些 在 
第 一 趟 扫描 时 被 散 列 到 频繁 桶 中 的 非 频繁 二 元 集 很 有 可 能 在 第 二 赵 扫 描 中 被 散 列 到 一 个 非 频 
繁 的 桶 中 。 

用 多 级 算法 计算 频繁 二 元 集 不 只 局 限于 使 用 三 趟 扫描 ， 我 们 可 以 执行 更 多 次 用 桶 进行 散 列 
的 扫描 ， 并 且 每 次 使 用 不 同 的 散 列 函数 。 第 一 趟 扫描 排除 了 那些 被 散 列 到 非 频 繁 桶 中 的 二 元 集 ， 
而 后 面 的 每 一 趋 扫描 都 能 排除 更 多 的 二 元 集 ， 直 到 最 终 很 有 可 能 所 有 候选 二 元 集 都 是 频繁 的 。 
然而 ， 由 于 每 个 位 图 需要 大 约 1/32 的 主 存 空 间 ， 因 此 存在 一 个 逐渐 缩小 的 回归 点 。 如 果 我 们 进 
行 的 扫描 趟 数 太 多 ， 那 么 不 仅 算法 的 执行 时 间 会 更 长 ， 而 且 有 可 能 导致 可 用 的 主 存 小 到 无 法 对 
所 有 的 频繁 二 元 集 进行 计数 。 

11.2.8 习题 

习题 11. 2. 1 对 图 11-3 中 的 数据 模拟 A-Priori 算法 ,假设 :=4。 

习题 11.2.2 假设 有 2100 种 商品 ， 其 中 100 种 “大 ”商品 ，2000 种 “小 "商品 。 往 一 个 购物 篮 中 加 入 一 件 大 
商品 的 概率 是 1/10， 加 入 一 件 小 商品 的 概率 是 1/200。 假 设 购物 篮 的 数量 足够 多 ， 从 而 使 得 任何 项 集 ( 商 
品 的 集合 ) 出 现在 所 有 购物 篮 中 的 比例 等 于 它 应 该 出 现 的 概率 。 举 例 来 说 ， 任 何 包含 一 件 大 商品 和 一 件 小 
商品 的 商品 对 出 现在 1/2000 的 购物 篮 中 。 设 支持 度 六 值 为 *， 但 是 它 不 是 以 绝对 数值 的 形式 表示 ， 而 是 表 
示 成 相对 于 购物 篮 总 数 的 一 个 比值 。 请 以 s( 取 值 在 0 ~ 1 之 间 ) 的 函数 形式 给 出 A-Priori 算法 的 第 一 趟 扫描 
后 的 频繁 商品 (频繁 单元 集 ) 的 个 数 ， 同 时 给 出 第 二 趟 扫描 时 的 候选 对 的 个 数 。 

! 习题 11.2.3 假设 我 们 要 通过 一 趟 扫描 对 所 有 大 小 为 n 的 频繁 项 集 进 行 计数 。 
a) 对 于 n>2， 三 角 和 矩阵 方法 的 一 般 化 表示 是 什么 ”请 给 出 表示 n RRL, i, +, inl 的 计数 值 在 数组 

中 位 置 的 公式 。 


c) 对 于 n>2， 计 数 表格 方法 的 一 般 化 表示 是 什么 ? 
d) 如 果 数 据 中 总 共有 个 大 小 为 n 的 频繁 项 集 ， 那 么 一 般 化 的 计数 表格 方法 会 占用 多 大 的 主 存 空间 ? 

! 习题 11.2.4 考虑 PCY 算法 运行 在 习题 11. 2. 2 的 数据 上 ， 并 且 第 一 趟 扫描 时 桶 的 数目 为 200 000。 假 设 
散 列 函数 是 完全 随机 的 。 具 体 地 说 ，1 999 000 个 (小 ， 小 ) 商 品 对 被 平均 地 分 配 到 桶 中 (大 约 每 个 桶 10 

个); 200 000 CK, 小) 商品 对 被 分 配 到 每 个 桶 1 个 ; 4950 个 (大 ， 大 ) 商品 对 被 分 配 在 不 同 的 桶 中 。 
a) 请 以 s( 如 习题 11. 2. 2 中 的 相对 于 购物 篮 总 数 的 比例 形式 ) 的 函数 形式 表示 在 第 一 趟 扫描 时 有 多 少 个 频 
繁 桶 ? 
b) WA s 的 函数 形式 表示 在 第 二 趟 扫描 时 必须 对 多 少 个 二 元 集 进行 计数 ? 

! 习题 11. 2. 5 假设 我 们 对 习题 11. 2. 4 中 的 数据 集 使 用 三 趟 扫描 的 多 级 算法 。 在 第 二 趟 扫描 时 的 桶 数 依然 是 
200 000 ， 并 且 散 列 函数 会 将 商品 对 随机 地 分 配 到 桶 中 。 请 回答 下 列 问题 ( 均 以 相对 于 购物 篮 总 数 的 比例 形 
AHH s): 

a) 在 第 二 趟 扫描 时 大约 有 多 少 个 频繁 桶 ? 
b) 在 第 三 趟 扫描 时 大 约 对 多 少 商品 对 进行 了 计数 ? 
习题 11. 2. 6 ”假设 购物 复数 据 被 分 布 式 地 存放 在 多 个 处 理 器 上 。 请 说 明 你 将 如 何 使 用 9. 2 节 中 提 到 的 map- 
reduce 架构 来 : 
a) 对 所 有 单个 商品 进行 计数 。 
Ub) 对 所 有 商品 对 进行 计数 。 
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11. 3 ”发 现 近似 的 商品 


我 们 现在 开始 研究 频繁 项 集中 的 一 类 问题 ， 它 们 有 助 于 网 上 商家 开展 市 场 营 销 活动 以 及 包 
括 一 些 其 他 有 趣 的 应 用 ， 例 如 在 互联 网 上 发 现 相似 文档 。 我 们 的 研究 会 从 市 场 - 购物 篮 数 据 开 
始 ， 但 这 次 我 们 要 寻找 成 对 的 商品 ， 它 们 在 各 自 出 现 的 购物 篮 中 以 相当 高 的 比例 一 起 出 现 ， 即 使 
它们 本 身 并 没有 出 现在 很 多 购物 篮 中 。 我 们 称 这 样 的 两 件 商品 是 相似 的 。 这 里 ， 关 键 的 技术 是 给 
每 个 商品 一 个 “标签 "， 从 而 使 得 标签 的 差别 能 够 代表 商品 本 身 的 差别 。 


11. 3. 1 相似 度 的 Jaccard 度量 

首先 ， 我 们 需要 精确 定义 什么 是 “相似 的 ”商品 。 因 为 我 们 感 兴趣 的 是 发 现 那 些 出 现在 同一 
个 购物 篮 中 的 商品 ， 很 自然 的 方法 就 是 把 每 种 商品 看 成 一 个 集合 : 由 所 有 包含 该 商品 的 购物 篮 
所 构成 的 集合 。 于 是 ， 我 们 需要 有 两 个 集合 是 多 么 相似 的 定义 。 

集合 S 和 了 的 Jaccard 相似 度 ( 或 者 简称 相似 度 ) 被 定义 为 1 SANTI ZI SUTI ， 即 它们 的 交 
集 和 并 集 的 大 小 之 比 。 于 是 ， 两 个 不 相交 的 集合 的 相似 度 为 0， 任 何 集合 与 自身 的 相似 度 为 1。 
再 举 一 个 例子 ， 集 合 j1，2，3}1 和 集合 j1，3，4，5} 的 相似 度 是 2/5 ， 因 为 它们 的 交集 含有 2 个 
元 素 而 并 集 包 含 5 个 元 素 。 


11.3.2 Jaccard 相似 度 的 应 用 

有 许多 重要 的 数据 挖 气 问题 可 以 归结 为 寻找 具有 高 Jaccard 相似 度 的 集合 。 在 这 里 ， 我 们 具 
体 讨 论 其 中 的 两 个 问题 。 

协同 过 滤 . 

假设 我 们 掌握 了 消费 者 网 上 购物 的 数据 。 要 想 知道 应 该 向 每 个 消费 者 分 别 推荐 什么 商品 ， 
一 种 方法 是 寻找 购买 的 商品 集合 相似 的 消费 者 。 当 一 个 消费 者 登录 后 ， 我 们 可 以 从 与 他 相似 的 
消费 者 购买 了 而 他 没有 购买 的 商品 中 挑选 一 种 推荐 给 他 。 在 比较 两 个 消费 者 时 ， 我 们 把 消费 者 
表示 成 他 所 购买 的 商品 的 集合 ， 然 后 再 计算 每 一 对 消费 者 的 Jaccard 相似 度 。 

对 于 这 相同 的 数据 ， 有 一 种 截然 相反 的 观察 角度 。 我 们 想 知道 哪些 成 对 的 商品 是 相似 的 ， 这 
基于 购买 它们 的 消费 者 的 集合 的 相似 性 。 我 们 可 以 像 描述 发 现 相似 消费 者 问题 那样 来 描述 这 个 
问题 。 现 在 ， 商 品 被 表示 成 购买 它 的 消费 者 的 集合 ， 然 后 我 们 需要 寻找 具有 相似 消费 者 集合 的 成 
对 的 商品 。 

顺便 提 一 下 ， 同样 的 数据 也 可 以 看 作 是 市 场 - 购物 篮 数据 ， 从 两 个 不 同 的 角度 。 这 里 的 商品 
对 应 市 场 - 购物 篮 中 的 “商品 ”， 而 消费 者 对 应 “购物 篮 ”， 反 之 亦 然 。 你 不 必 奇 怪 ， 实 际 上 ， 任 
何 多 对 多 关系 都 可 以 从 这 两 个 角度 看 作 市 场 - 购物 篮 数据 。 在 11, 1 节 中 ,我 们 只 从 其 中 一 个 角 
度 分 析 数 据 ， 这 是 因为 当 “ 购 物 链 ” 对 应 现实 中 收银 台 边 的 购物 车 时 ,试图 发 现 相 似 的 购物 车 或 
者 装 了 许多 相同 商品 的 购物 车 是 没有 实际 意义 的 。 

相似 文档 

有 很 多 理由 让 我 们 去 发 现 文 本 内 容 相似 的 文档 。 如 果 我 们 在 息 取 互联 网 ， 两 个 非常 相似 的 
文档 可 能 因为 其 中 一 个 是 另 一 个 的 镜像 ， 而 它们 唯一 的 差别 有 可 能 仅仅 是 指向 外 部 文档 的 链接 。 
对 于 一 个 搜索 请 求 ， 搜 索引 擎 不 希望 把 这 两 个 文档 同时 返回 给 用 户 。 相 似 的 文档 还 有 可 能 暗示 
Al MAME. HER, OIC d 中 含有 从 另 一 个 文档 d, 摘录 的 一 些 内 容 , 但 d, Md, LA 
10% 的 内 容 完全 相同 的 ， 这 仍然 是 一 种 惠 窃 。 

判断 两 个 文档 是 否 完全 相同 是 很 简单 的 ， 我 们 只 需 逐 字 比 较 直 到 发 现 不 匹配 或 者 文档 结束 。 
在 一 个 文档 中 寻找 一 个 句子 或 者 一 段 较 短 的 文本 是 否 出 现 也 不 困难 ， 你 只 需 考虑 给 定 的 文本 片 
段 在 文档 中 所 有 可 能 的 开始 位 置 ， 而 大 多 数位 置 会 很 快 发 现 不 匹配 。 真 正 困 难 的 是 发 现 相似 的 
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文档 ， 而 不 是 有 连续 大 段 完全 一 致 的 文档 。 例 如 ， 一 个 文档 的 草稿 和 它 编辑 后 的 版 本 很 可 能 几乎 
每 句 句子 都 有 小 的 改动 。 

对 于 文档 存在 大 量 较 小 改动 的 情况 ,一 个 几乎 无 懈 可 击 的 方法 是 将 文档 表示 成 它 的 -gram 
集 ， 也 就 是 ， 它 的 所 有 长 度 为 上 的 了 了 串 所 相 成 的 集合 o k-shingle 是 k-gram 的 另 一 种 叫 法 。 举例 
来 说 ，11. 3.2 节 的 第 一 句 话 (“A number of…”) 的 3-gram 集合 包含 了 “A n”, “nu”, “num” 
等 。 如 果 我 们 把 不 设 置 为 足够 大 ， 使 得 一 个 随机 选取 的 k-gram 出 现在 一 个 文档 中 的 概率 很 
小 ， 那 么 如 果 两 个 文档 的 k-gram 集 的 Jaccard 相似 度 很 高 就 强烈 地 暗示 着 它们 文档 本 身 是 相 
似 的 。 





压缩 的 shingle Fẹ 
为 了 让 一 个 文档 能 被 它 的 k-shingle 集 刻画 ， 我 们 必须 选择 足够 大 的 k， 使 得 一 个 给 定 的 
shingle 子 串 出 现在 文档 中 的 机 会 很 小 。 丰 =5 大 约 是 我 们 能 选择 的 最 小 值 ， 甚 至 左 取 到 10 左右 
都 不 是 罕见 的 。 然 而 ， 这 样 会 产生 大 量 的 shingle 子囊 且 长 度 较 长 ， 从 而 算法 执行 时 间 会 比 实 
际 需 要 的 长 。 于 是 ， 把 shingle 子 串 散 列 成 32 位 (或 者 更 少 ) 的 整数 是 常见 的 方法 。 这 些 散 列 
值 仍然 数量 足够 多 使 得 不 同文 档 能 被 区 分 ， 但 是 它们 能 被 更 快 地 比较 和 处 理 。 











11.3.3 最 小 散 列 

计算 两 个 大 集合 的 Jaccard 相似 度 是 非常 花费 时 间 的 。 另 外 ， 即 使 我 们 能 高 效 地 计算 两 个 集 
合 的 相似 度 ， 我 们 也 无 法 应 付 大 数据 集中 数量 庞大 的 集合 对 的 数量 。 于 是 ， 我 们 需要 学 习 两 个 
“技巧 ”， 它 们 能 抽出 大 数据 集中 相似 的 集合 对 。 它 们 形式 上 都 是 “ 散 列 "方法 ， 但 是 它们 对 散 列 
方法 的 使 用 完全 不 同 。 

1. 最 小 散 列 是 一 种 对 每 个 集合 构造 一 个 短 标签 的 方法 。 它 使 得 我 们 可 以 通过 计算 标签 的 相 
似 度 来 衡量 集合 的 相似 度 。 我 们 会 看 到 ， 计算 标签 的 “相似 度 ” 是 很 方便 的 ， 尽 管 它 不 是 真正 的 
Jaccard 相似 度 。 在 本 节 中 ， 我们 就 将 研究 最 小 散 列 方法 。 

2. 局 部 敏感 散 列 是 一 种 集中 关注 其 代表 的 集合 很 可 能 是 相似 的 标签 对 的 方法 ， 从 而 我 们 不 
必 去 检查 任意 两 个 标签 的 相似 度 。 在 11.4 节 中 ， 我 们 将 研究 局 部 敏感 散 列 方法 。 

为 了 介绍 最 小 散 列 ， 我 们 假设 每 个 集合 中 的 元 素 都 来 自 于 包含 n TER e, e, s eh 
全 集 。 随 机 选择 这 ”个 元 素 的 一 个 排列 ， 于 是 ， 集 合 $ 的 最 小 散 列 值 就 是 在 这 个 排列 中 作为 集合 
S 的 成 员 的 第 一 个 元 素 。 

例 11.6 假设 全 集 为 1，2,，3,，4，5}1 ， 并 且 我 们 选择 的 排列 是 (3，5，4，2，1) 。 那 么 任 
何 包含 3 的 集合 (例如 12，3，51 ) 的 散 列 值 都 是 3。 如 果 某 个 集合 包含 5 但 不 包含 3， 例 如 i1, 
2，5| ， 那 么 它 的 散 列 值 是 5。 再 举 一 个 例子 ，{1，21| 的 散 列 值 是 2， 这 是 因为 排列 中 2 出 现在 1 
之 前 。 口 

假如 我 们 拥有 一 些 集合 ， 例 如 ， 以 文档 的 10-grams 集 表示 的 一 些 文档 集合 。 为 了 计算 集合 的 
标签 ， 我 们 挑选 m( 一般 为 100 左右 ) 个 包含 所 有 可 能 元 素 (例如 ， 长 度 为 10 的 所 有 可 能 的 字符 
串 ) 的 全 排列 。 集 合 5 的 标签 就 是 由 这 m 个 排列 按 顺 序 所 产生 的 最 小 散 列 值 序列 。 

例 11.7 假设 全 集 仍旧 是 11, 2,3,4, 5} ,并 且 m=3， 即 由 三 个 最 小 散 列 值 构成 标签 。 
我 们 选择 的 全 排列 是 7 = (1, 2, 3, 4, 5)、7,=(5, 4, 3, 2, 1) 和 7 = (3, 5, 1, 4, 2)。 

={2, 3,4} ， 它 的 标签 是 (2, 4，3)。 上 基体 说 明 一 下 ， 首 先 在 7, 中 2 出 现在 3 和 4 之 前 ， 因 此 

第 一 个 最 小 散 列 值 为 2; Em 中 4 出 现在 2 和 3 之 前 ， 因 此 第 二 个 最 小 散 列 值 为 4; 在 zs 中 3 出 
现在 2 和 4 之 前 ,因此 第 三 个 最 小 散 列 值 为 3。 口 
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11.3.4 最 小 散 列 与 Jaccard 相似 度 
实际 上 ， 最 小 散 列 值 和 Jaccard 相似 度 有 着 十 分 密切 的 联系 : 
。 如 果 排 列 是 随机 产生 的 ， 那 么 由 它 生成 的 两 个 集合 的 最 小 散 列 值 相 等 的 概率 与 这 两 个 集 
合 的 Jaccard 相似 度 相同 。 

于 是 ， 如 果 我 们 得 到 了 两 个 集合 3 和 了 的 标签 ， 那 么 我 们 就 能 用 它们 对 应 位 置 的 最 小 散 列 值 
相同 的 比例 来 估算 它们 的 Jaccard 相似 度 。 

例 11.8 假设 三 个 排列 和 例 11.7 中 相同 ， 考 虑 两 个 集合 7= |1，2，3}1 和 SS= |2，3，4| ， 
它们 的 标签 分 别 是 (1,.3，3) 和 (2,， 4，3) 。 我 们 发 现 它们 的 标签 在 三 个 对 应 位 置 中 只 有 最 后 一 
个 值 相同 ， 于 是 集合 5 和 7 的 Jaccard 相似 度 估计 值 为 /3。 注 意 ， 实 际 上 真正 的 Jaccard 相似 度 
是 1/2。 O 

为 了 使 通过 标签 的 估计 值 更 接近 真实 的 Jaccard 相似 度 ， 我 们 必须 选择 较 多 的 排列 。 我 们 认 
为 100 个 排列 就 足够 使 得 “大 数 定理 ”成 立 。 然 而 ， 标 签 的 确切 个 数 要 根据 我 们 希望 的 近似 程度 
而 定 。 


11. 3.5 为 什么 能 用 最 小 散 列 估计 相似 度 

让 我 们 来 研究 一 下 ， 为 什么 两 个 集合 的 Jaccard 相似 度 和 由 一 个 随机 选择 的 全 排列 产生 的 这 
两 个 集合 的 最 小 散 列 值 相 等 的 概率 是 相同 的 。 假 设 S 和 了 是 两 个 集合 ， 设 想 依 次 查看 随机 排列 的 
每 个 元 素 ， 直 到 发 现 一 个 元 素 。， 它 至 少 出 现在 $ 和 了 的 一 个 里 。 有 这 样 两 种 情况 : 

1. 如 果 e 同时 出 现在 S 和 7 中， 那么 这 两 个 集合 的 最 小 散 列 值 相同 ， 均 为 e。 

2 如果。 只 出 现在 S 和 了 的 一 个 里 ， 那 么 一 个 集合 的 最 小 散 列 值 为 e。， 而 另 一 个 一 定 是 其 
他 值 。 

在 随机 排列 中 ，e 是 第 一 个 出 现 的 包含 在 SU7 中 的 元 素 。 从 而 ， 第 一 种 情况 发 生 的 概率 是 
SU7 中 元 素 出 现在 SOT 中 的 概率 ， 这 正 是 3 和 了 的 Jaccard 相似 度 。 反 之 ， 当 5 和 了 共有 相同 散 
列 值 时 第 一 种 情况 一 定 发 生 。 这 就 证 明了 最 小 散 列 值 和 Jaccard 相似 度 之 间 的 关系 。 


11. 3.6 最 小 散 列 的 实现 

此 前 我 们 提 到 要 随机 选 出 包含 所 有 元 素 的 一 个 全 排列 ,但 是 实际 上 这 是 不 可 行 的 。 这 不 但 
会 花费 过 长 的 时 间 ， 而 且 有 可 能 让 我 们 处 理 一 些 在 研究 的 集合 中 根本 没有 出 现 的 元 素 。 实 际 上 ， 
我 们 用 另 一 种 方法 模拟 挑选 随机 全 排列 ， 那 就 是 选择 一 个 随机 的 散 列 函数 疡 ， 它 将 元 素 映 射 到 一 
个 很 大 的 整数 序列 0，1，…, B-1 上 (也 就 是 散 列 函数 中 桶 的 编号 ) 。 我 们 假定 在 疡 所 替代 的 全 
排列 中 元 素 e 出 现在 h(e) 的 位 置 。 当 然 ， 多 个 元 素 可 能 被 分 配 到 相同 的 位 置 ,但 是 只 要 B 足够 
大 ， 我 们 就 能 避免 这 种 冲突 ， 并 且 被 模拟 的 全 排列 会 足够 随机 使 得 标签 和 相似 度 之 间 的 关系 得 
以 保持 。 i 

假设 数据 集 以 一 个 集合 的 形式 呈现 。 为 了 用 散 列 函数 疡 来 计算 集合 S = |a, a, --, a) 的 
最 小 散 列 值 ， 我 们 可 以 使 用 如 下 代码 : 


FOR i par TO n DO 
IF h(ai) <V THEN V := h(a,); 

BA, V 被 赋值 为 5 中 所 有 元 素 散 列 值 的 最 小 值 。 尽 管 这 个 散 列 值 可 能 并 不 对 应 唯一 的 元 
素 ， 这 是 由 于 可 能 有 多 个 元 素 都 散 列 到 这 个 值 ， 但 是 只 要 刀 散 列 到 的 区 间 足 够 大 ， 散 列 冲突 的 可 
能 性 就 能 足够 小 ， 从 而 我 们 可 以 继续 认为 具有 相同 最 小 散 列 值 的 两 个 集合 一 定 含有 一 个 相同 
元 素 。 
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如 果 我 们 要 计算 的 不 是 仅仅 一 个 最 小 散 列 值 ， 而 是 根据 m 个 散 列 函数 有 ，h,，…，h, 计算 
集合 5 的 严 个 最 小 散 列 值 ， 那 么 对 于 S 中 的 每 个 元 素 ， 我们 都 可 以 并 行 地 计算 它 的 m 个 散 列 值 。 
代码 如 图 11-8 所 示 。 

如 果 数 据 以 一 个 一 个 购物 篮 的 形式 呈现 (如 
11.1 节 中 描述 的 )， 那 么 计算 标签 的 工作 就 变 得 有 
点 困难 了 ， 具 体 地 说 ， 就 是 我 们 需要 计算 的 是 “ 商 FOR j := 1 TO m DO 
品 ” 的 标签 ， 而 数据 却 以 一 个 购物 篮 的 形式 呈现 。 TF hj(ai) < Vj THEN Vj += hj(a;); 
此 时 ， 商 品 之 间 的 相似 度 是 包含 商品 的 购物 篮 组 成 图 11-8 ”同时 计算 m 个 最 小 散 列 值 
的 集合 之 间 的 Jaccard 相似 度 。 

假如 有 种 商品 ， 并 且 我 们 要 根据 m 个 不 同 的 散 列 函数 hh ，h,，…，h 来 计算 它们 的 标签 。 
那么 ， 我 们 就 需要 维护 hm 个 值 ， 其 中 每 个 值 对 应 一 种 商品 以 及 采用 的 一 个 散 列 函 数 。 设 V, 对 应 
商品 i 和 散 列 函数 hh， 初始 时 所 有 的 V 均 设 为 无 穷 大 。 当 我 们 读 入 购物 篮 5 时 ， 我们 对 所 有 j = 
1, 2，…,m 计算 (5)。 而 值 需要 更 新 的 只 有 那些 出 现在 5 中 的 商品 。 算 法 框架 如 图 11-9 所 
示 ， 最 终 ，V 保 存 了 商品 i 的 第 j 个 最 小 散 列 值 。 

FOR i := 1 TO k DO 
FOR j := 1 TO m DO 
FOR EACH packet b DO BEGIN 
FOR j := 1 TO m DO 
compute h;(b); 
FOR EACH item i in b DO 


FOR j := 1 TO m DO 
IF h;(b) < Vij THEN Vij :三 hs;(b); 










FOR f := 1 TO m DO 
V := œ; 
FOR i := 1 TO n DO 











END 
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11.37 习题 

习题 11. 3. 1 计算 下 列 集合 任意 两 两 之 间 的 Jaccard 相似 度 : 全 ， 2, 3, 4, 5}, {1, 2， 6, 7}, 2, 3, 
4, 7}. 

习题 11. 3. 2 ” 写 出 下 面 这 个 字符 串 的 所 有 4-grams: 
"abcd ef ghij" 


注意 引号 不 算 在 字符 串 内 ， 但 是 空格 需要 计算 。 
习题 11. 3. 3 ”假设 全 集 为 |1，2，…，10} ， 计 算 标签 所 依据 的 全 排列 如 下 : 

1.(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 

2.(10, 9, 8, 7, 6, 5, 4, 3, 2, 1) 

3.(4, 7, 2, 9, 1, 5, 3, 10, 6, 8) 

计算 下 列 集合 的 最 小 散 列 标签: 

a) {2, 4, 6} 

b) {1, 3, 5, 7} 

c) {8, 9, 10} 

请 比较 两 两 集合 之 间 根 据 标签 得 到 的 Jaccard 相似 度 估 计 值 和 真正 的 Jaccard 相似 度 。 
习题 11. 3. 4 ”我 们 用 几 个 散 列 函数 取代 习题 11. 3. 3 中 用 到 的 具体 的 全 排列 ， 用 以 生成 集合 的 标签 。 假 设 我 

们 使 用 下 列 3 个 散 列 函 数 : 

f(z) =z mod 10 


g(x) = (3z +1) mod 10 
h(x) = (5x +2) mod 10 
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请 计算 集合 的 最 小 散 列 标签 ， 并 比较 两 两 集合 之 间 根 据 标签 得 到 的 Jaccard 相似 度 佑 计 值 和 真正 的 Jaccard 
相似 度 。 

1 习题 11. 3.5 假设 数据 文件 被 分 布 式 地 存放 在 多 个 处 理 器 中 。 请 说 明 你 将 如 何 使 用 9.2 节 中 提 到 的 map- 
reduce 架 构 来 根据 一 个 散 列 函数 计算 集合 的 最 小 散 列 值 ， 假 设 如 下 : 
a) 文件 必须 按 列 进行 分 割 
b) 文件 必须 按 行进 行 分 割 


11.4 局 部 敏感 散 列 


我 们 继续 研究 11. 3 节 中 讨论 的 问题 ， 最 小 散 列 标签 方法 并 没 能 真正 地 解决 的 问题 。 尽 管 使 
用 标签 能 大 大 加 快 估算 两 个 集合 的 相似 度 的 速度 ， 但 是 我 们 需要 去 比较 的 集合 对 仍旧 太 多 。“ 局 
部 敏感 散 列 " 方 法 (“locality-sensitive hashing” , fa] LSH) 就 显得 很 神奇 ， 因 为 从 某 种 意义 上 说 ， 
它 能 把 集合 或 者 其 他 元 素 散 列 到 桶 中 ， 使 得 相似 的 ”元 素 被 散 列 到 同一 个 桶 中 。 当 然 ， 有 得 必 
有 失 ， 我 们 有 一 定 概率 (一 般 情 况 下 这 种 概率 较 小 ) 错过 一 些 相似 的 元 素 ， 并 且 如 果 希 望 这 个 概 
率 越 小 ， 我 们 需要 做 的 工作 就 越 多 。 在 研究 一 般 性 理论 之 前 ， 让 我 们 先 看 几 个 例子 。 


11.4.1 LSH 实例 : 实体 分 辨 

让 我 们 回顾 一 下 在 10.7 节 中 讨论 的 实体 分 辩 的 例子 ， 即 我 们 拥有 大 量 记录 ， 和 希望 从 中 找 出 
相似 的 记录 对 。 在 这 里 的 “相似 度 ” 不 是 指 Jaccard 相似 度 ， 实 际 上 对 于 这 个 问题 ， 我 们 并 没有 对 
“相似 度 " 做 出 严格 的 定义 。 其 实 ， 无 论 我 们 如 何 定义 两 条 记录 的 相似 度 ， 都 免不了 要 比较 过 多 
的 记录 对 。 举 例 来 说 ， 如 果 有 100 万 条 记录 一 一 这 个 数量 并 不 很 大 一 一 那 我 们 就 需要 比较 5000 
亿 个 记录 对 。 如 果 存 在 许多 由 大 量 相似 记录 组 成 的 集合 ， 那 么 我 们 可 以 使 用 例如 R - Swoosh 算法 
进行 合并 从 而 减少 比较 次 数 ， 但 是 如 果 不 存在 相似 的 记录 ， 那 么 我 们 便 只 能 比较 所 有 可 能 的 记 
录 对 。 

如 果 有 办 法 对 记录 进行 “ 散 列 ”， 使 得 相似 的 记录 落 人 相同 的 桶 ， 而 不 相似 的 记录 不 落 和 (或 
很 少 落 人 ) 相同 的 桶 ， 我 们 会 很 满意 。 然 后 ， 我 们 可 以 再 对 落 入 同一 个 桶 中 的 记录 进行 严格 的 比 
较 检 查 。 假 如 有 1000 个 桶 ， 并 且 记录 被 均匀 地 散 列 到 这 些 桶 中 ， 那 么 我 们 需要 上 比较 的 记录 对 的 
数量 就 是 原来 的 1/1000。 也 许 我 们 并 不 能 完全 做 到 前 面 说 的 这 样 ， 但 是 我 们 能 做 得 相当 接近 。 

例 11.9 假设 记录 如 10.7 节 中 的 例子 : 姓名 -地址 - 电话，3 个 域 均 为 字符 串 。 同 时 ， 如 
果 两 条 记录 的 3 个 对 应 域 的 编辑 距离 之 和 不 大 于 5， 那 么 我 们 认为 这 两 条 记录 是 相似 的 。 我 们 用 
一 个 散 列 函数 将 记录 的 姓名 域 映射 到 100 万 个 桶 中 。 实 际 上 ,具体 是 什么 并 不 重要 ， 我们 对 
它 的 唯一 要 求 是 必须 是 个 好 的 散 列 函数 一 一 能 把 姓名 大 致 均匀 地 分 配 到 各 个 桶 中 。 

我 们 的 工作 并 不 是 到 此 为 止 。 我 们 再 将 所 有 记录 散 列 到 另外 的 100 万 个 桶 中 ， 这 次 选择 合适 
的 散 列 函 数 对 地 址 域 进行 散 列 。 如 果 散 列 函 数 h 可 以 处 理 任 何 字 符 串 ， 我 们 甚至 可 以 就 用 它 。 然 
后 ， 我 们 进行 第 三 次 散 列 一 一 根据 电话 号 码 域 散 列 至 另外 100 万 个 桶 中 。 

最 后 ， 我 们 检查 3 个 散 列表 中 的 每 一 个 桶 (总共 3 000 000 个 桶 )。 对 于 每 个 桶 ,我们 比较 所 
有 在 该 桶 中 的 记录 对 ， 并 得 到 总 编辑 距离 小 于 等 于 5 的 所 有 记录 对 。 假 设 有 条 记录 ， 并 且 在 每 
个 散 列 表 中 都 均匀 分 布 ， 那么 每 个 桶 中 有 n10 条 记录 ， 所 有 桶 中 的 记录 对 数量 约 为 /人 (2 x 
10”)。 由 于 总 共有 3 x 10° 个 桶 ， 总 共 的 比较 次 数 约 为 1. 5/10'。 而 所 有 记录 总 共 构 成 ” 7/2 个 
记录 对 ， 因 此 我 们 实际 进行 的 比较 约 为 原先 的 3 x10“， 这 将 大 大 提高 效率 。 

事实 上 ， 刚 才 桶 的 数量 是 我 们 随意 选择 的 ， 这 人 么 看 来 我 们 似乎 可 以 根据 需要 任意 地 减少 比 
较 的 次 数 。 当 然 ， 减 少 是 有 限度 的 。 如 果 我 们 让 桶 的 数目 过 多 ， 主 存 会 无 法 容纳 。 另 一 方面 ,无 
论 我 们 如 何 选择 桶 的 个 数 ， 我 们 都 无 法 避免 地 必须 去 比较 那些 确实 是 相似 的 记录 对 。 

我 们 会 有 损失 吗 ? 是 的 ， 我 们 会 。 我 们 可 能 遗漏 一 些 满足 相似 度 阐 值 的 记录 对 ， 遗 漏 的 原因 
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是 它们 在 3 个 域 上 都 存在 差异 , (LE BAD 5S RAW AD ic eo be 
决 于 真正 表示 同一 实体 的 那些 记录 在 各 个 域 上 的 差异 性 的 分 布 情况 。 然 而 ， 如 果 阅 值 设 为 编辑 
距离 不 大 于 5， 我 们 可 以 认为 不 会 遗漏 太 多 真正 的 相似 记录 。 口 

但 是 ， 如 果 例 11. 9 中 的 编辑 距离 不 是 5 而 是 20， 那 么 结果 会 怎样 呢 ? 那 就 可 能 出 现 很 多 在 
任何 域 上 都 存在 差异 的 相似 记录 。 为 了 处 理 这 个 问题 ， 我 们 必须 : 

1. 增加 散 列 函数 和 散 列表 的 个 数 。 

2. 针对 一 个 域 中 的 一 部 分 来 建立 散 列 函 数 。 

例 11. 10 我 们 可 以 把 姓名 域 分 成 名 字 、 中 闻名 和 姓 分 别 进行 散 列 。 我 们 可 以 把 地 址 域 分 成 
门牌 号 、 街 道 名 、 城 市 名 、 国 家 和 邮政 编码 。 电 话 号 码 可 以 被 分 割 成 地 区 号 、 交 换 机 号 和 最 后 4 
位 数字 。 由 于 电话 号 码 由 数字 组 成 ,我 们 甚至 可 以 选择 这 10 个 数字 中 的 任何 子 集 ， 对 其 进行 散 . 
列 。 不 幸 的 是 ， 由 于 我 们 现在 散 列 的 是 较 小 的 子 域 ， 因 此 我 们 选择 桶 的 数目 受到 了 限制 。 如 果 桶 
的 数目 过 大 ， 那 么 大 多 数 桶 会 是 空 的 。 

在 进行 了 多 次 散 列 之 后 ,我 们 还 是 检查 每 个 散 列表 中 的 每 一 个 桶 ， 并 对 落 到 同一 个 桶 中 的 
每 个 记录 对 至 少 比较 一 次 。 然 而 ， 由 于 以 下 两 个 原因 ， 导 致 了 总 的 运算 时 间 将 大 大 高 于 上 一 个 例 
子 。 第 一 ， 每 个 记录 在 所 有 桶 中 出 现 的 次 数 是 和 我 们 使 用 的 散 列 函数 的 个 数 成 正比 的 ; 第 二 ， 针 
对 数据 中 较 小 片段 的 散 列 函数 ， 无 法 像 例 11. 9 中 那样 将 记录 散 列 到 那么 多 的 桶 中 。 口 


11.4.2 标签 的 局 部 敏感 散 列 
在 例 11. 10 中 采用 的 局 部 敏感 散 列 方法 是 相对 简单 的 。 为 了 说 明 这 个 思想 在 更 精巧 应 用 中 的 
作用 ， 让 我 们 回 到 11. 3 节 中 提 到 的 问题 ， 在 那 一 节 的 讨论 中 ,我 们 了 解 了 用 标签 替换 集合 的 优 
点 。 当 我 们 要 寻找 以 标签 形式 表示 的 相似 
集合 时 ， 对 于 任何 相似 度 阔 值 ， 我 们 都 可 
以 根据 某 种 方法 来 构造 基于 局 部 敏感 散 列 
方法 的 散 列 函 数 。 我 们 把 表示 集合 的 标签 
看 成 一 个 矩阵 ， 每 一 列 对 应 -个 集合 的 标 
签 ， 每 一 行 对 应 一 个 散 列 函数 。 将 这 个 短 
阵 按 行 分 成 6 条 带 ， 每 带 包含 + 行 ， 显 而 
DI, br 就 是 标签 的 长 度 。 图 11-10 展示 
了 大 致 的 结构 。 

对 于 每 个 带 ， 我 们 用 一 个 散 列 函数 将 
标签 在 这 个 带 中 的 部 分 映射 到 某 个 很 大 数 
目的 马 个 桶 中 。 也 就 是 ， 这 个 散 列 函 数 
将 作用 在 由 7 个 整数 构成 的 序列 上 ， 并 产 
生 一 个 范围 在 0 到 -1 之 间 的 整数 。 在 
图 11-10 H, B=4。 如 果 两 个 标签 在 任何 
一 个 带 中 所 有 对 应 行 上 的 数 都 相等 ， 那 么 
它们 一 定 会 被 散 列 到 同一 个 桶 中 。 然 而 ， 
即使 两 个 标签 在 一 个 带 中 对 应 位 置 不 完全 
相同 ， 它 们 也 有 一 定 可 能 被 散 列 到 同一 个 
桶 中 ， 但 是 通过 选择 足够 多 的 桶 ， 我 们 可 








n 个 标签 
以 保证 出 现 这 样 “错误 肯定 ”的 几率 很 小 。 图 11-10 “将 标签 划分 成 带 并 对 每 个 带 中 的 值 进行 散 列 
对 于 每 个 桶 中 的 所 有 标签 对 ， 我 们 都 对 其 
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进行 比较 ， 因 此 ， 即 使 两 个 标签 仅 在 一 个 带 中 相同 也 会 被 比较 。 对 于 两 个 不 在 任何 带 中 相同 的 标 
签 ， 可 能 不 会 被 比较 ， 然 而 ， 正 如 我 们 此 前 提 到 的 ， 有 小 小 的 可 能 它们 也 被 散 列 到 同一 个 桶 中 ， 
从 而 也 需要 进行 比较 。 

让 我 们 计算 一 下 比较 一 对 最 小 散 列 标签 的 概率 ， 用 带 数 5、 每 带 的 行 数 " 以 及 这 两 个 标签 表 
示 的 原始 集合 的 Jaccard 相似 度 来 表示 。 简 单 起 见 ， 我 们 假设 桶 的 个 数 足够 多 以 至 于 不 存在 散 
列 促 突 ， 也 就 是 说 ， 多 个 标签 被 散 列 到 同一 个 桶 中 ， 当 且 仅 当 它们 在 进行 散 列 的 那个 带 上 的 值 完 
全 相同 。 

首先 ， 这 两 个 标签 在 任意 一 行 上 值 相同 的 概率 是 *， 这 在 11.3.5 节 中 我 们 已 经 了 解 。 那 么 ， 
它们 在 某 个 特定 的 带 的 行 中 完全 相同 的 概率 是 *。 于 是 ， 它 们 不 在 某 个 带 的 所 有 行 上 相同 的 概 
率 是 1 -”， 因 而 ， 它 们 在 所 有 ,》 个 带 中 都 不 完全 相同 的 概率 是 (1 -*)*。 最 后 ， 这 两 个 标签 在 至 
少 一 个 带 的 所 有 行 都 相同 的 概率 是 1 - (1 -*)*。 这 个 式 子 就 是 两 个 标签 需要 进行 比较 的 概率 。 

例 11.11 假设 >=5，5 =20， 即 标签 长 度 为 100， 我 们 将 其 分 成 20 个 带 ， 每 带 5 行 。 那 么 
两 个 相似 度 为 * 的 标签 需要 进行 比较 的 概率 就 是 1 - (1 -*)”。 假 如 s=0.8， 也 就 是 这 两 个 标签 
所 表示 的 集合 的 Jaccard 相似 度 为 80% . s° =0. 328 ， 就 是 说 这 两 个 标签 在 一 个 带 中 完全 相同 的 概 
率 并 不 大 ， 大 约 只 有 1/3。 然 而 ， 我 们 有 20 次 机 会 “ 赢 "， 而 (1 -0.328)” 非 常 小 ,大约 只 有 
0.000 35。 于 是 ， 我 们 确实 在 至 少 一 个 桶 中 同时 发 现 这 两 个 标签 的 概率 为 1 - 0.000 35， 即 
0. 999 65, 

另 一 方面 , 假如 s =0.4, 那么 1 - (1 - (0.4)5)2 = 1 
1-(1-0.01)”， 约 为 20% 。 如 果 * 比 0.4 更 小 ,那么 
这 两 个 标签 被 比较 的 概率 会 比 20% 更 小 ， 并且 急速 下 ”至 少 出 现在 
降 。 我 们 总 结 一 下 ， 选 择 5 = 20，r =5， 在 寻找 高 相似 Maat 
度 ( 例 如 80% 或 更 高 ) 的 标签 对 时 非常 有 效 ; 然而， 如 
果 相 似 度 阔 值 很 小 (例如 只 有 40% ) ， 那 么 这 就 不 是 一 


个 好 的 选择 。 口 
函数 1-(1-s) 总体 上 都 如 图 11-1 所 示 的 那样 ， 0 
但 是 由 很 小 迅速 到 达 接 近 1 的 那个 转折 点 的 位 置 随 着 6 0 ur! 
Mr 的 取 值 不 同 而 变化 。 粗 略 地 分 析 ， 转 折 点 大 约 在 相 a 
似 度 s= (14b), 
图 11-11 两 个 标签 同时 出 现在 至 少 一 个 


11.4.3 最 小 散 列 法 和 局 部 敏感 散 列 的 结合 桶 中 的 概率 

最 小 散 列 和 局 部 敏感 散 列 这 两 个 思想 必须 合理 地 结 
合 ， 从 而 解决 例如 我 们 在 11. 3. 2 节 中 讨论 的 那 类 问题 。 举 例 来 说 ， 假 设 我 们 已 有 大 量 表示 成 某 
个 长 度 的 shingle 子 串 集合 的 文档 。 现 在 我 们 想 寻 找 这 些 文档 的 shingle 子 串 集合 的 Jaccard 相似 度 
至 少 为 的 文档 对 。 

1. 计算 每 个 文档 的 最 小 散 列 标签 ; 散 列 函数 的 个 数 根据 精度 的 需要 而 定 ， 但 是 几 百 个 就 足 
以 满足 大 多 数 的 需要 。 

2. 运用 局 部 敏感 散 列 方法 ， 依 据 至 少 在 一 个 带 上 散 列 到 同一 个 桶 中 的 原则 ， 得 到 候选 标签 
对 。 如 11.4.2 节 中 讨论 的 ， 如 何 选择 带 数 和 行 数 需要 根据 相似 度 阔 值 ; 而 定 。 

3. 对 于 每 组 候选 标签 对 ， 通 过 对 它们 对 应 位 置 上 相同 的 个 数 进行 计数 来 估算 它们 的 Jaccard 
相似 度 。 

4. (AH) 对 于 其 标签 足够 相似 的 每 一 对 集合 ， 通 过 检查 集合 本 身 来 计算 它们 真正 的 Jac- 
card 相似 度 。 
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当然 ， 这 个 方法 会 引入 错误 肯定 一 一 被 第 2、3、4 步 排除 的 那些 候选 对 。 同 时 ,第 2、3 步 
也 会 产生 一 些 错误 否定 一 一 满足 Jaccard 相似 度 冰 值 的 集合 对 未 进入 候选 对 或 者 从 候选 池 中 被 
排除 。 

a) 第 2 步 时 ， 一 对 集合 可 能 具有 十 分 相似 的 标签 ， 但 恰巧 在 所 有 带 中 都 不 完全 相同 。 

b) 第 3 步 时 ， 可 能 两 个 集合 的 Jaccard 相似 度 大 于 s, 但 是 它们 的 标签 对 应 位 置 相 同 的 比例 
不 到 so 

一 种 减少 错误 否定 的 方法 是 在 初始 阶段 降低 相似 度 阐 值 。 在 第 2 步 时 ， 和 目标 相似 度 s 所 对 
应 的 合适 的 行 数 和 带 数 相 比 ， 我 们 可 以 选择 相对 较 小 的 行 数 > 或 者 相对 较 大 的 带 数 5。 在 第 3 步 
时 ,我 们 可 以 选择 比 实际 相似 度 * 小 的 值 作为 阐 值 ， 对 候选 对 进行 过 滤 。 不 幸 的 是 ， 这 些 变化 都 
会 带 来 错误 肯定 数量 的 增加 ， 因 此 ， 必 须 仔 细 考 虑 能 够 设置 多 小 的 阔 值 。 

另 一 种 减少 错误 否定 的 方法 是 跳 过 第 3 步 而 直接 进行 第 4 步 的 检查 ， 也 就 是 ， 我 们 去 计算 所 
有 候选 集合 对 的 真实 Jaccard 相似 度 。 这 么 做 的 缺点 就 是 最 小 散 列 标签 原本 就 是 为 了 简化 它们 所 
表示 的 集合 的 比较 过 程 而 设计 的 ， 但 我 们 却 没有 利用 它 的 这 一 特性 。 举 例 来 说 ， 如 果 比 较 的 对 象 
是 一 些 长 文档 那么 相对 于 比较 整个 -shingles 集 ， 比 较 数 百 个 对 应 位 置 的 标签 数值 要 高 效 得 多 。 

在 一 些 应 用 中 ， 存 在 错误 否定 并 没关系 ， 于 是 我 们 可 以 调整 LSH 方法 使 得 错误 否定 的 比例 
增 大 ， 从 而 减少 错误 肯定 的 数量 ， 最 终 使 得 整个 运算 过 程 得 到 加 速 。 例 如 ， 如 果 一 个 在 线 零售 商 
需要 发 现 相似 的 消费 者 对 ， 从 而 向 每 个 消费 者 推荐 一 种 商品 。 那 么 他 没有 必要 去 发 现 全 部 的 相 
似 消费 者 对 ， 因 为 只 要 为 每 个 消费 者 找到 一 些 相 似 消费 者 就 足够 了 。 


11.4.4 习题 

习题 11. 4.1 函数 P=1-(1-*7)8 给 出 了 当 我 们 在 LSH 方法 中 选择 带 数 5 和 行 数 r 时，Jaccard 相似 度 为 s 
的 两 个 集合 所 对 应 的 两 个 最 小 散 列 标签 被 至 少 一 次 散 列 到 同一 个 桶 中 的 概率 。 对 于 一 个 给 定 的 相似 度 阐 
值 *， 我 们 希望 选择 合适 的 上 和 r， 使 得 在 * 处 p =1/2。 我 们 建议 当 p =1/2 i} s KAE)", BEX 
仅 是 一 个 估计 。 假 设 标签 长 度 为 30。 我 们 可 以 选择 任何 乘积 为 30 的 整数 5 和 r， 也 就 是 ， 可 以 选择 r 为 
1, 2, 3, 5, 6，10, 15, 30， 而 5 为 对 应 的 30/7。 
a) 如 果 s =1/2， 对 所 有 可 能 的 b 和 7 的 选择 ,计算 p 值 。 如 果 172 就 是 相似 度 阐 值 ， 那 么 你 会 选择 哪个 ? 

1b) 对 于 所 有 可 能 的 5 和 7 的 选择 计算: 的 值 ， 使 得 p = 1/2。 

! 习题 11. 4.2 本 题 基于 例 11. 9 提 到 的 实体 分 辨 问题 。 具 体 地 ， 我 们 假设 唯一 可 能 的 编辑 距离 小 于 等 于 5 的 
记录 对 一 定 是 由 记录 本 身 和 它 的 一 个 抄写 错误 的 版 本 构成 。 在 抄写 错误 的 版 本 中 ，3 个 域 的 改变 是 相互 独 
立 的 。 有 60% 的 可 能 一 个 域 没 有 改变 ， 有 20% 的 可 能 存在 编辑 距离 为 1 的 改变 ， 有 10% 的 可 能 编辑 距离 
为 2， 另 外 10% 的 可 能 编辑 距离 为 10。 假 设 数据 集中 总 共有 200 万 组 这 样 的 记录 对 。 

a) 在 所 有 200 万 组 记录 对 中 ， 有 和 多少 组 的 编辑 距离 小 于 等 于 5? 

b) 如 果 我 们 把 每 个 域 都 散 列 到 数量 很 大 的 桶 中 ， 如 例 11.9 中 描述 的 那样 ， 那 么 在 这 200 万 组 记录 对 中 ， 
有 多 少 组 将 至 少 一 次 被 散 列 到 同一 个 桶 中 ? 

c) 有 多 少 错误 否定 ?也 就 是 说 ， 在 这 200 万 组 记录 对 中 ， 有 多 少 组 的 编辑 距离 小 于 等 于 5， 却 没有 被 散 列 
到 任何 一 个 相同 的 桶 中 ? 


11.5 大 规模 数据 的 聚 敌 


我 们 把 将 数据 集中 的 “点 ”分 成 一 些 闭 的 过 程 称 为 聚 类 ( 聚 闭 ) 。 同 一 篮 中 的 点 在 某 种 意义 上 
距离 “接近 ”， 而 不 同 簇 中 的 点 距离 “遥远 ”。 我 们 从 研究 衡量 距离 的 方式 开始 研究 这 个 问题 ， 因 
为 只 有 明确 了 距离 的 定义 我们 才能 讨论 怎样 的 点 算 接 近 的 ， CRRA, RREN” 
是 一 种 重要 的 距离 ， 点 与 点 之 间 的 距离 根据 它们 在 空间 中 的 位 置 决 定 。 然 而 ， 除 了 欧式 距离 之 外 
还 有 许多 其 他 的 距离 定义 ， 聚 簇 中 的 一 个 重要 问题 就 要 能 够 处 理 不 在 空间 中 任何 位 置 实际 “ 存 
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在 ”的 点 集 ， 只 要 给 出 一 个 距离 的 定义 。 

接着 ， 我 们 将 考虑 聚 灸 问题 的 两 种 主要 方法 。 一 种 被 称 为 “ 族 聚 法 ”， 它 从 每 个 点 各 自 是 一 
个 徐 开 始 ， 不 断 地 合并 “邻近 的 " 徐 。 男 一 种 被 称 为 “点 分 配 ”， 根据 某 种 方式 设 定 初始 时 的 簇 ， 
然后 将 点 分 配 到 “最 佳 的 " 簇 中 。 


11.5.1 BRARA 

FERS REAM CREM — TD IFIP HY, BURR 11-12 所 示 的 少量 的 点 
Ay ARTE SEAS NA PAD BE, ATAR SGE RE Ot . ° 
简单 ， 我 们 在 此 只 是 顺带 提 一 下 。 当 数据 规模 增 大 时 ， 问 题 ee” 
就 不 那么 简单 了 。 而 当 数据 的 维度 增 大 或 者 数据 根本 不 属于 °° e,o 
具有 “维度 ”的 空间 时 ， 问 题 就 变 得 更 加 困难 了 。 我 们 的 研究 e° 
VIR eR RUE; 1 — EA RARR. ° 

协同 过 滤 ee 

在 11.3.2 节 中 ,我们 讨论 了 根据 消费 者 购买 的 商品 集合 
来 发 现 相似 的 商品 或 者 相似 的 消费 者 的 问题 。 使 用 最 小 散 列 
法 和 局 部 敏感 散 列 法 得 到 的 分 析 结 果 可 以 是 一 个 相似 商品 对 
( 即 被 许多 消费 者 同时 购买 的 两 件 商品 ) 构成 的 集合 。 或 者 ， 我 们 也 可 以 得 到 成 对 的 相似 消费 者 
( 即 购 买 了 许多 相同 商品 的 消费 者 ) 。 如 果 我 们 把 商品 (或 看 成 点 ) 聚 集 到 一 些 相似 商品 构成 的 能， 
也 许 能 更 好 地 了 解 商品 之 间 的 关系 。 这 样 的 化 有 可 能 是 某 个 很 自然 的 商品 类 别 ， 比 如 古典 音乐 
CD 这 一 类 别 。 同 样 ， 如 果 我 们 根据 相似 的 购买 兴趣 对 消费 者 进行 聚 秘 ， 也 能 得 到 有 用 的 信息 ， 
比如 ， 某 一 个 簇 可 能 表示 “喜欢 古典 音乐 的 人 ”。 为 了 使 得 聚 徐 有 意义 ， 当 两 个 消费 者 或 者 商品 
具有 较 高 相似 度 时 ,我 们 必须 能 把 表示 它们 的 两 个 点 的 距离 定义 为 “ 近 ” 的 。 例 如 ， 我 们 将 在 
11. 5.2 节 中 看 到 1 减 去 Jaccard 相似 度 是 如 何 成 为 一 个 合适 的 “有 虐 离 " 定 义 的 。 

基于 主题 的 文档 聚 续 

我 们 可 以 使 用 上 面 介绍 的 针对 商品 和 消费 者 的 聚 秘技 术 来 对 文档 进行 基于 Jaccard 相似 度 的 
聚 能 。 然 而 ， 另 一 种 文档 育 艇 的 应 用 是 基于 文档 的 “主题 "对 文档 进行 聚 簇 ( 例 如 “体育 "、“ 医 
学 "等 主题 ) ， 即 使 具有 相同 主题 的 文档 在 逐 字 比 较 时 并 不 十 分 相位。 一 个 简单 的 方法 是 想象 一 
个 具有 非常 高 的 维度 的 空间 ， 每 一 维 代表 了 一 个 可 能 在 文档 中 出 现 的 词 。 将 文档 定义 为 点 (%， 
x ，…) ， 其 中 当 第 i 个 词 在 文档 中 出 现时 x, =1， 否 则 x, =0。 我 们 完全 可 以 把 距离 定义 为 普通 的 
欧式 距离 ， 但 是 我 们 很 快 会 发 现 ， 这 样 定义 的 距离 并 不 如 我 们 最 初 想象 的 那么 有 用 。 

DNA 序列 聚 簇 7 

DNA 是 由 字母 C、G、A、T 构成 的 碱 基 对 序列 。 由 于 这 样 的 字符 串 有 时 会 增加 、 减 少 或 改 
变 字 母 ， 因 此 DNA 序列 之 间 自 然 就 存在 着 编辑 上 距离 。 基 于 编辑 距离 的 序列 聚 秘方 法 能 帮助 我 们 
将 相似 的 序列 归 人 同一 个 组 。 

实体 识别 

在 10.7.4 节 中 , 我们 曾经 讨论 了 通过 合并 记录 从 而 对 记录 进行 聚 秘 的 算法 ， 其 中 每 一 个 簇 
是 一 个 由 图 中 相连 的 记录 ( 即 满足 相似 条 件 的 记录 ) 所 组 成 的 连通 分 支 。 

SkyCat 

在 这 个 研究 项 目 中 ， 大 约 20 亿 个 “星体 "(例如 恒星 或 星系 ) 被 定位 在 一 个 7 维 空间 中 ， 其 中 
每 一 维 表示 了 该 星体 在 7 个 不 同 电磁 波谱 上 的 辐射 强度 。 通 过 将 这 些 星体 聚集 到 辐射 强度 模式 相 
似 的 组 中 ， 这 个 研究 项 目 能 够 识别 出 大 约 20 种 不 同类 别 的 星体 。 
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欧式 空间 
无 需 深入 理论 知识 ， 根 据 我 们 的 目的 ， 我 们 可 以 将 欧式 空间 看 作 具 有 茶 个 维度 nn 的 空间 。 
在 这 个 空间 中 的 每 个 点 都 是 由 nn 个 实数 组 成 的 元 组 (x1，x，,，…，%,)。 哆 式 距离 只 不 过 是 欧 
式 空间 中 许多 看 似 合理 的 距离 定义 中 的 一 个 。 








11.5.2 距离 的 定义 

在 一 个 点 集 上 的 一 个 距离 定义 可 以 表示 为 满足 如 下 条 件 的 函数 d(x, y): 

1. 对 于 任意 点 x 和 y, d(x, y) 20 

2. 当 且 仅 当 x=y 时 , d(x, y) =0 

3. d(x, y) =dly, x)( 对 称 性 ) 

4. FERA a, y, z, d(x, y) <d(x, z) +d(z, y) (三 角形 不 等 式 ) 

也 就 是 说 ， 任 何 点 到 自身 的 距离 为 0， 任 何 两 个 不 同 点 闻 的 距离 大 于 0。 两 点 之 间 的 距离 与 
选择 的 路 径 方向 无 关 ( 对称 性 ) ， 并 且 当 强制 经 过 某 个 另外 的 第 3 个 点 时 距离 不 会 减少 (三 角形 不 
等 式 ) 。 

在 一 个 nn 维 欧式 空间 中 ， 最 常见 的 距离 定义 便 是 欧式 距离 。 在 这 样 的 空间 中 ， 点 可 以 表示 成 
n 维 坐标 x = (a, mm, 如) 和 7= (nr > Yo RBM dlr, y) 被 定义 为 


$ (a -y7) , 即 所 有 维度 上 差 值 的 平方 和 的 二 次 方 根 。 然 而 ， 还 有 许多 别 的 定义 距离 的 方 


法 ,我 们 接 下 来 就 对 其 中 一 些 进 行 研究 。 

基于 范 数 ( norm) 的 距离 

在 欧式 空间 中 ， 上 面 提 到 的 传统 的 距离 定义 仅仅 是 众多 选择 中 的 一 个 。 更 一 般 地 ， 对 于 任意 
Mr, 我 们 可 以 这 样 定义 距离 : 








any) = (X la -nl) 

这 个 距离 定义 是 从 L,-norm 衍生 而 来 的 。 由 此 可 见 ， 传 统 的 欧式 距离 是 当 r =2 时 的 情况 ， 因 而 也 
被 叫做 L -normo 

另 一 个 常见 的 选择 是 L-norm， 也 就 是 所 有 坐标 差 值 的 绝对 值 之 和 。 这 个 距离 定义 经 常 被 称 
作 曼 哈 额 距离 ， 因 为 它 就 像 在 曼 险 顿 横 平 竖 直 的 街道 上 行走 所 经 过 的 距离 。 

然而 ,还 有 一 个 有 趣 的 选择 是 5 -norm， 也 就 是 所 有 维度 上 最 大 的 坐标 差 值 。 具 体 地 说 ， 当 
"趋向 于 无 穷 大 ，( 袜 1 和 yl) 的 信 趋 近 于 所 有 i 中 最 大 的 1 x, — 91 。 

例 11.12 假设 x= (1, 2,3), y= (2, 4,1), WAEL BRP d(x, y) Æ 

11-217+12-417+13-11?= 14444 =3， 这 便 是 传统 的 欧式 距离 。x 和 y 之 间 的 曼 
哈 顿 距离 是 11-2| 412-41 +13-1| =5。x 和 yy 之 间 的 LL, -norm 距离 是 max(11-21， 
12_-41，13-11)=2。 口 

Jaccard 距离 

对 于 任意 两 个 能 表示 成 集合 的 点 ， 我 们 定义 它们 之 闻 的 Jaccard 距离 等 于 1 减 去 它们 的 Jac- 
card 相似 度 。 也 就 是 说 ， 如 果 x My 是 两 个 集合 ， 那 么 

d(x, y)=1-Cl any! /1 «Uyl ) 

举例 来 说 ， 如 果 两 个 点 分 别 表示 和 集合 {1，2，31 和 集合 12， 3, 4,5), BACH Jaccard 相似 
度 是 2/5， 于 是 它们 的 Jaccard 距离 是 3/5。 
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很 自然 地 有 人 会 问 ，Jaccard FEBS Ye EA Se FE AA? 很 明显 地 ,d(x, x) =0, 

这 是 因为 
1-(€l «nal /lxUx| )=1-(1/1) =0 

同样 ,我 们 也 很 容易 发 现 Jaccard 距离 一 定 是 非 负 的 ， 这 是 因为 两 个 集合 的 交集 大 小 一 定 小 于 等 
于 它们 并 和 集 的 大 小 。Jaccard 距离 的 对 称 性 也 是 一 目 了 然 的 ， 因 为 集合 的 交 、 并 运算 本 身 都 是 可 
交换 的 。 

困难 的 部 分 是 证 明 其 满足 三 角形 不 等 式 。 幸 好 ，11. 3. 4 节 中 的 定理 可 以 帮助 我 们 ， 那 个 定 
理 是 ， 两 个 集合 的 Jaccard 相似 度 值 等 于 一 个 随机 生成 的 全 排列 对 于 这 两 个 集合 所 产生 的 最 小 散 
列 值 相等 的 概率 。 于 是 ，Jaccard 距离 就 等 于 这 两 个 集合 的 最 小 散 列 值 不 相等 的 概率 。 假 设 x 和 7 
由 全 排列 o 所 产生 的 最 小 散 列 值 不 相同 ， 那 么 在 {x，zi 和 |z，y| 中 至 少 有 一 对 的 最 小 散 列 值 不 
相同 (有 可 能 两 对 都 不 相同 ) 。 于 是 ，x 和 y 最 小 散 列 值 不 相同 的 概率 小 于 等 于 *x 和 z 最 小 散 列 值 
不 相同 以 及 z 和 y 最 小 散 列 值 不 相同 的 概率 之 和 。 这 种 用 概率 来 描述 的 关系 实际 上 就 是 Jaccard 
距离 的 三 角形 不 等 式 。 具 体 地 说 ， 我 们 证 明了 从 x 到 y 的 Jaccard 距离 小 于 等 于 从 x 到 z 和 从 = 到 
7 的 Jaccard 距离 之 和 。 

余弦 距离 

假设 我 们 研究 的 点 分 布 在 欧式 空间 中 。 我 们 可 以 把 这 些 点 看 作 从 坐标 原点 延伸 出 的 向 量 。 
所 谓 余弦 距离 ， 就 表示 两 个 点 所 对 应 向 量 之 间 的 夹 角 。 


维度 的 诅咒 
当 我 们 在 对 一 维 或 二 维 空间 的 点 进行 聚 伐 时 ， 我 们 的 直觉 通常 是 非常 准确 的 。 然 而 ， 当 
需要 处 理 高 维 空间 的 点 时 ， 我 们 的 直觉 往往 出 现 偏差 。 举 例 来 说 ， 假 设 所 有 点 都 分 布 在 一 个 
n 维 的 边 长 为 1 的 超 立 方 体 中 。 当 n=2( 也 就 是 ， 一 个 正方 形 ) 时 ， 有 很 多 点 在 中 心 附 近 ， 另 
外 很 多 在 边界 附近 。 但 是 ， 当 nn 很 大 时 ， 与 一 个 边 长 为 1 的 超 立 方 体 相 比 ， 一 个 边 长 只 比 1 
小 一 点 点 的 超 立方 体 的 体积 是 极 小 的 。 这 边 意 味 着 ,在 这 样 一 个 超 立 方 体 中 ， 几 乎 所 有 的 点 
都 在 边界 附近 。 于 是 ,“ 中 心 " 便 不 存在 了 ， 并 且 无 法 得 到 非 边 界 的 点 构成 的 徐 。 


例 11. 13 假设 将 文档 用 5 个 单词 出 现 与 否 来 表示 ， 也 就 是 点 (文档 ) 由 包含 5 个 0 或 1 的 向 
量 构 成 。 假 如 (0, 0,1,1, DAC, 0, 0, 1，1) 是 其 中 的 两 个 点 。 两 个 向 量 夹 角 的 余弦 值 可 
以 用 两 个 向 量 的 内 积 除 以 两 个 向 量 长 度 的 乘积 来 计算 。 在 这 个 例子 中 ， 向 量 内 积 为 0x1+0x 
0+1x0+lxl+lxl=0+0+0+1+1=2， 两 个 向 量 长 度 均 为 V3 。 于 是 ， 这 两 个 向 量 夹 角 的 余 
EE 2/( 43 x V3 ) =2/3， 角 度 大 约 为 48 E. 口 

如 果 我 们 把 点 看 作 方向 ， 也 就 是 说 如 果 一 个 向 量 是 另 一 个 向 量 的 倍数 ， 那 么 他 们 被 认为 是 
相同 的 ， 于 是 余弦 距离 便 满 足 关 于 距离 定义 的 公理 。 并 且 当 且 仅 当 两 个 向 量 方向 相同 时 夹 角 为 
0, 夹 角 一 定 是 非 负 的 。 对 称 性 成 立 的 原因 是 因为 x My 之 间 的 夹 角 与 y 和 x 之 间 的 夹 角 相等 。 
三 角形 不 等 式 成 立 的 原因 是 因为 两 个 向 量 之 间 的 夹 角 一 定 不 大 于 这 两 个 向 量 和 第 三 个 向 量 的 夹 
角 之 和 。 

编辑 距离 

有 多 种 形式 的 编辑 距离 都 满足 关于 距离 定义 的 公理 ， 在 这 里 ,我 们 关注 只 允许 插入 和 删除 
操作 的 编辑 距离 。 如 果 两 个 字符 串 x 和 y 距离 为 0( 也 就 是 说 不 需要 编辑 ) ， 那 么 它们 必须 是 完全 
相同 的 。 对 称 性 成 立 的 原因 是 因为 插 人 和 删除 是 相反 的 操作 。 三 角形 不 等 式 成 立 的 原因 是 因为 
任何 一 个 将 x 变换 到 y 的 过 程 都 可 以 认为 是 先 将 x 变换 到 z 而 后 从 z 变换 到 y。 那 么 ， 从 * 经 由 = 
变换 到 y 的 编辑 距离 之 和 是 某 一 种 从 x 变换 到 y 的 过 程 所 需 的 编辑 步 数 。 这 个 编辑 步 数 一 定 不 会 
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小 于 从 x 变换 到 y 的 编辑 距离 ， 因 为 那 是 所 有 从 x 变换 到 y 的 过 程 中 最 小 的 代价 。 


11.5.3 凝聚 式 聚 簇 

我 们 现在 开始 研究 聚 秘 算法 。 从 高 层次 上 说 ， 我 们 研究 的 第 一 种 方法 就 是 最 直截了当 的 方 
法 。 从 每 个 点 各 自 为 一 个 灸 开始 ， 不 断 地 寻找 "最 近 的 得 对 进行 合并 ， 直 至 终止 条 件 满足 为 止 。 
这 种 方法 被 称 为 凝聚 式 的 或 是 层次 化 的 聚 秘 。 称 其 为 “层次 化 的 ” 良 簇 ， 是 因为 我 们 不 但 得 到 了 
聚 艇 结果 ， 间 时 我 们 还 得 到 了 体现 每 一 个 马 在 聚 铸 过 程 中 合并 顺序 的 子 结构 。 然 而 ， 棘 手 的 问题 
总 是 来 自 具 体 的 细节 ， 因 此 我 们 需要 回答 两 个 问题 : 

1. 我 们 如 何 衡量 秘 之 间 的 “接近 程度 ”? 

2. 我 们 如 何 来 决定 何 时 终止 合并 ? 

定义 “接近 程度 ” 

PURELY SKE VE CHD 之 间 的 接近 程度 ， 下 面 是 两 个 常用 的 : 

a) 任何 点 对 之 闻 的 最 小 距离 ， 点 对 中 的 一 个 点 来 自 C 另 一 个 来 自 D。 

b) 所 有 点 对 距离 的 平均 值 ， 点 对 中 的 一 个 点 来 自 C 另 一 个 来 自 了 D。 

这 两 个 接近 程度 的 定义 能 在 任何 距离 定义 下 正常 工作 。 如 果 点 处 在 欧式 空间 中 ， 我 们 便 有 了 上 额 
外 的 选择 。 由 于 实数 可 以 计算 平均 值 ， 因 此 任何 欧式 空间 中 的 点 集 都 存在 一 个 质心 一 一 每 一 维 
的 取 值 都 是 整个 点 集 在 该 维度 的 平均 值 的 点 。 例如， 点 集 | (1, 2, 3), (4, 5, 6), (2, 2, 
2)} 的 质心 是 (2. 33 ，3. 00，3. 67) ， 精 确 到 小 数 点 后 两 位 。 于 是 ， 对 于 欧式 空间 ， 接 近 程度 的 另 
一 个 很 好 的 选择 是 : 

c) BE C 和 簇 刀 的 质心 距离 。 

终止 合并 

一 个 常用 的 终止 条 件 是 ， 根 据 实现 选 定 的 能 的 个 数 上 ， 不 断 合并 直到 当前 能 的 数目 达到 上 为 
正 。 如 果 你 对 灸 的 选择 有 很 好 的 直觉 ， 那 么 这 是 一 个 不 错 的 方法 。 例 如 ， 如 果 你 有 一 些 关 于 三 个 
不 同 主题 的 文档 ， 你 就 可 以 一 直 合并 直到 得 到 三 个 和 能 为 止 ， 并 且 期 望 这 三 个 饮 与 实际 的 三 个 主 
题 比较 接近 。 

另 一 种 终止 条 件 引 入 了 凝聚 性 的 概念 一 被 合并 的 艇 中 所 有 点 都 相互 接近 的 程度 。 根 据 基 
于 凝聚 性 的 终止 条 件 ， 当 两 个 钱 合 并 后 不 满足 我 们 选择 的 凝聚 性 条 件 时 ， 我 们 便 拒绝 合并 它们 。 
在 每 轮 合并 时 ， 我 们 可 能 不 去 合并 所 有 敌对 中 最 接近 的 一 对 ， 而 去 合并 满足 凝聚 性 条 件 的 簇 对 
中 最 接近 的 一 对 。 我 们 其 至 可 以 将 “接近 程度 ”就 定义 成 凝聚 性 指数 ， 这 样 便 将 合并 的 选择 与 终 
止 条 件 合 二 为 -了 。 以 下 是 几 种 关于 一 个 簇 的 凝聚 性 指数 的 定义 ， 

1. 将 一 个 徐 中 所 有 点 到 质心 的 距离 的 平均 值 作为 凝 
聚 性 指数 。 注 意 ， 这 种 定义 只 在 欧式 空间 中 有 效 。 

2. 将 一 了 
作为 凝聚 性 指数 。 
3. 将 一 个 鳞 中 所 有 点 对 距离 的 平均 值 作为 凝聚 性 

指数 。 

例 11. 14 考虑 图 11-13 中 的 6 个 点 。 假 设 距离 定义 
沿用 传统 的 欧式 距离 ， 并 且 我 们 将 两 个 徐 中 各 取 一 个 点 
的 所 有 点 对 中 距离 的 最 小 值 作为 两 个 秘 距 离 的 定义 。 初 
nt, TARE, RCMP ERAS 
距离 。 图 11-14 给 出 了 这 些 距 离 ( 精 确 到 两 位 小 数 ) 。 图 11-13 例 11.14 中 的 数据 
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3.61 1.41 2.00 
3.00 3.16 
3.61 








图 11-14 图 11-13 的 点 之 间 的 距离 


最 接近 的 点 对 是 D 和正， 于 是 它们 合并 为 一 个 簇 。 然 后 ， 我 们 必须 计算 和 能 DF 到 所 有 其 他 点 
的 距离 。 根 据 我 们 选用 的 “接近 程度 ”定义 ,这 个 距离 就 是 一 个 点 到 DD 或 的 距离 的 较 小 值 。 距 
离 关 系 变 为 : 





5.10 3.00 2.00 
5.66 3.61 


2.24 








BoP TES BE EE MDF, TREMBLE SH ATA DEF, HH ABE 
距离 就 是 该 点 到 D、E 或 F 的 距离 的 最 小 值 。 距 离 表 格 变 为 : 
A B C 
DEF | 4.00 5.10 3.00 


C 2.83 2.24 
B | 3.00 


接着 ,我 们 继续 合并 距离 最 近 的 簇 对 ， 应 该 是 BB 和 C。 新 的 距离 表格 为 : 
A BC 

最 后 一 个 可 能 的 合并 是 4 和 BC， 最 终结 果 是 两 个 能 一 一 灸 ABC Hik DEF, 

然而 ， 我 们 很 可 能 希望 合并 过 程 较 早 结束 。 作 为 一 个 终止 条 件 的 例子 ， 我 们 可 以 拒绝 合并 后 
的 簇 中 所 有 点 对 距离 的 平均 值 大 于 2. 5 的 簇 对 的 合并 。 于 是 ，D、E 和 FF 的 合并 是 可 以 进行 的 ， 
其 凝聚 性 指数 (这 三 个 点 中 两 两 距离 的 平均 值 ) 是 2. 19( 查 看 图 11-14) 。 

当 合并 到 4、BC 和 DEF 的 局 面 时 ， 我 们 不 能 合并 4 和 BC， 尽管 它们 是 最 接近 的 簇 对 。 原 因 
是 4BC 三 个 点 的 平均 距离 是 2.69， 高 于 阐 值 。 我 们 考虑 合并 此 时 第 二 接近 的 簇 对 DEF 和 BC， 然 
i, I BCDEF 的 凝聚 性 指数 为 3. 56， 同 样 过 高 。 第 三 个 选择 是 合并 4 和 DEF, (ARIE ADEF 的 
凝聚 性 指数 为 3. 35， 仍 然 过 高 。 口 


11. 5.4 k-Means 算法 

第 二 种 聚 簇 方法 被 称 为 点 分 配方 法 。 一 个 常用 的 也 是 典型 的 方法 被 称 为 k-Means, WEAR 
式 的 从 簇 方法 那样 ， 这 其 实 也 是 一 个 大 类 的 算法 。%k-Means 算法 的 轮廓 是 : 

1. 从 选择 个 初始 徐 开 始 。 这 些 簇 可 以 是 单个 点 ， 也 可 以 是 小 的 点 集 。 

2. 将 其 他 未 分 配 的 点 分 配 到 距离 它 “ 最 接近 ”的 簇 中 。 

3. 可 选择 地 ， 在 分 配 完 所 有 点 后 ， 固 定 每 个 艇 的 质心 (这 里 假设 点 是 在 欧式 空间 中 ， 因 为 非 
欧 空 间 不 存在 “质心 " 的 概念 ) 。 然 后 ， 将 所 有 点 重新 分 配 到 这 上 个 灸 中 。 很 有 可 能 有 些 点 在 重新 
分 配 时 被 分 配 到 了 新 的 簇 中 。 
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k-Means RÆK — FPR MAO IKE PB TA, RB PhAST RELA 
作为 第 二 个 点 ， 接 着 挑选 与 前 两 个 点 的 最 小 距离 尽 可 能 大 的 点 作为 第 三 个 点 。 以 此 类 推 ， 每 次 挑 
选 与 此 前 已 选 定 的 所 有 点 的 最 小 距离 尽 可 能 大 的 点 ， 直 至 选 出 个 点 。 这 些 点 就 成 为 了 初始 的 上 
ME « 

111.15 假设 我 们 的 点 是 如 图 11-13 所 示 的 那些 , k=3, 并且 我 们 选 4 作为 第 一 个 簇 的 种 
子 。 上 距离 4 最 远 的 点 是 ， 于 是 成 为 了 第 二 个 簇 的 种 子 。 对 于 第 三 个 点 ， 距 离 A 或 E 的 最 小 距 
离 值 如 下 : 

B: 3.00, C: 2.83, D: 3.16, F: 2.00 
胜出 者 是 D， 它 的 值 3. 16 是 最 大 的 。 于 是 , D RAZZETT. 口 

选 出 了 天 个 秘 的 种 子 之 后 ， 我 们 遍历 所 有 剩余 的 点 ， 并 把 它们 分 配 到 一 个 秘 中 。 一 种 简单 的 
分 配方 案 是 选择 距离 最 近 的 种 子 。 然 而 ， 如 果 我 们 处 理 的 是 欧式 空间 ， 我 们 可 以 保存 每 个 艇 当前 
的 质心 位 置 ， 然 后 对 于 每 个 点 ， 我 们 将 其 分 配 到 距离 最 近 的 质心 所 在 的 簇 中 。 

例 11.16 我 们 继续 例 11.15 的 过 程 。 我 们 有 了 初始 的 三 个 艇 4、D 和 EE， 同时 它们 的 质心 
就 是 它们 本 身 。 假 设 我 们 需要 对 如 进行 分 配 。 最 近 的 质心 是 4， 上 臣 离 为 3. 00。 于 是 ， 第 一 个 簇 变 
成 486， 质 心 是 (1，3.5) 。 假 设 接着 分 配 C。 明 显 地 ，C 距离 48B AROR DREE, ACR 
分 配 到 AB, MAR 4BC， 它 的 质心 是 (1. 67, 3.67). Ba, RAAF. AF E ABC 的 质 
心 ， 它 距离 DER. FR, REIZA ABC, DF 和 EE， 它 们 的 质心 分 别 是 (1.67， 
3.67)、(5.5,1.5) 和 (6，4)。 我 们 可 以 再 将 所 有 点 重新 分 配 到 这 三 个 质心 所 在 的 艇 ,但 结果 不 
会 发 生变 化 。 口 
11.5.5 大 规模 数据 的 k-Means 方法 

我 们 现在 分 析 一 种 扩展 的 k-Means 方法 ， 用 以 处 理 点 集 规模 过 大 使 得 主 存 无 法 容纳 的 情况 。 
我 们 的 目的 不 是 将 每 个 点 分 配 到 某 个 簇 中 ， 而 是 确定 最 终 每 个 簇 的 质心 位 置 。 如 果 我 们 确实 需 
要 知道 每 个 点 的 分 配 情况 ， 可 以 再 次 访问 一 遍 数 据 ， 将 每 个 点 分 配 到 距离 最 近 的 质心 所 在 的 簇 ， 
然后 将 点 和 簇 的 编号 打印 输出 。 

这 个 算法 被 称 为 BFR 算法 ， 它 处 理 的 是 n BARKS PMR, RABAT 
质心 位 置 。BFR 算法 假设 一 个 簇 的 凝聚 性 指数 由 这 个 镀 中 的 方差 表示 ， 一 个 篮 的 方差 是 这 个 得 
中 每 个 点 到 质心 距离 平方 的 均值 。 然 而 ， 为 了 计算 简便 ,该 算法 不 保存 质心 和 方差 ， 而 用 2n +1 
个 概括 统计 值 来 替代 : 

1 N, BARR. 

2. 对 于 每 个 维度 ;， 簇 中 所 有 点 在 该 维度 上 值 之 和 ， 记 作 SUM,- 

3. 对 于 每 个 维度 i， 簇 中 所 有 点 在 该 维度 上 值 的 平方 和 ， 记 作 SUMS,- 

使 用 这 些 参数 的 原因 是 在 合并 艇 时 它们 很 容易 被 重新 计算 一 一 直接 将 需要 合并 的 艇 的 对 应 参数 
相 加 即 可 。 而 同时 ， 我 们 还 能 通过 它们 计算 得 到 质心 和 方差 。 方 法 如 下 : 

。 质心 的 第 i 维 分 量 是 SUM,/N。 

。 方 差 的 第 i 维 分 量 是 SUMSQ,/N - (SUM,/N)?, 
同时 需要 记 住 o;， 标 准 差 在 第 i 维 上 的 分 量 是 方差 在 第 i 维 上 分 量 的 平方 根 。 

BFR 算法 每 次 读 取 装 满 整 个 主 存 的 数据 ， 并 留 出 一 些 空间 存放 簇 的 概括 统计 值 以 及 我 们 马 
上 就 要 讨论 的 其 他 一 些 数 据 。 它 可 以 使 用 例 11. 15 中 的 方法 ， 在 第 一 次 读 取 时 初始 化 个 种 子 。 
它 也 可 以 使 用 任何 其 他 方法 对 第 一 次 读 取 的 数据 进行 聚 徐 ， 并 得 到 诺 个 人 能。 在 算法 执行 的 过 程 
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中 ， 点 被 分 到 三 个 集合 之 一 : 

1. 丢弃 集 。 已 经 分 配 到 簇 中 的 点 。 这 些 点 不 保存 在 主 存 中 ， 它 们 仅 通过 所 在 簇 的 概括 统计 
值 体现 。 

2. 压缩 集 。 可 以 有 多 组 ,每 组 由 一 些 相 互 之 间距 离 足够 接近 使 得 我 们 相信 它们 应 该 属于 同 
一 个 簇 的 点 组 成 ， 然 而 它们 又 不 和 当前 任何 一 个 灸 的 质心 距离 接近 ， 因 此 我 们 暂时 无 法 对 它们 
进行 分 配 。 就 像 当前 已 知 的 化 一 样 ， 每 个 这 样 的 组 由 它 的 概括 统计 值 表示 ， 并 且 它 包含 的 点 不 保 
存在 主 存 中 。 

3. 保留 集 。 不 和 其 他 任何 点 距离 接近 的 点 ， 它 们 是 "游离 者 ” 。 它 们 最 终 会 被 分 配 到 距离 最 
近 的 簇 中 ， 但 是 此 时 我 们 把 它们 保存 在 主 存 中 。 
这 些 集合 在 每 次 读 取 数 据 时 发 生变 化 。 图 11-15 展示 了 BFR 算法 在 经 过 几 次 数据 读 取 后 的 状态 。 


1. G 


—ME, ERY 
点 在 丢弃 集中 


图 11-15 Pik, ILS ESR AL MR E R HHA 


11.5.6 内存 中 满载 点 后 的 处 理 过 程 

我 们 现在 来 描述 一 次 将 内 存 中 满载 点 后 的 处 理 过 程 。 我 们 假设 主 存 当 前 存放 了 大 个 得 的 概括 
统计 值 、 零 个 或 多 个 属于 压缩 集中 的 点 构成 的 组 ， 以 及 当前 保留 集中 的 点 。 我 们 进行 如 下 步 又 : 

1. 对 于 “足够 接近 ”( 我 们 会 在 稍 后 定义 它 ) 某 个 簇 的 质心 的 所 有 点 (%;，x,，…，x,) ， 我 们 
把 它 加 入 到 那个 簇 中 。 这 个 点 本 身 进入 丢弃 集 。 我 们 把 那个 艇 的 入 值 加 1， 同 时 SUM, 加 上 x,， 
SUMSQ, 加 上 x; o 

2. 如 果 这 是 最 后 往 内 存 中 加 载 数据 ， 那 么 将 所 有 压缩 集中 的 组 和 保留 集中 的 点 分 配 到 距离 
最 近 的 簇 中 。 通 过 概括 统计 值 对 艇 和 组 进行 合并 是 很 容易 的 ， 只 需 将 计数 值 W 相 加 ， 以 及 对 应 
的 SUM 和 SUMSQ 向 量 相 加 。 算 法 到 此 结束 。 

3. 否则 (这 不 是 最 后 一 次 往 内 存 中 加 载 ) ， 使 用 任意 主 存 聚 艇 算法 对 这 次 读 取 中 剩余 的 点 以 
及 当前 保留 集中 的 点 进行 聚 艇 。 这 里 需要 对 聚 艇 设置 凝聚 性 阐 值 ， 从 而 避免 对 距离 不 足够 接近 

的 点 进行 合并 。 
| 4. 那些 大 小 为 1 的 簇 中 的 点 (也 就 是 ， 不 和 任何 其 他 点 距离 接近 的 点 ) 构 成 新 的 保留 集 。 那 
些 大 小 超过 1 的 簇 被 加 入 到 压缩 集中 ， 并 用 它们 的 概括 统计 值 代替 。 

5. 考虑 合并 一 些 压缩 集 。 使 用 一 定 的 凝聚 性 阅 值 来 决定 两 个 组 是 否 足够 接近 ， 我 们 会 在 稍 
后 讨论 如 何 做 这 个 决定 。 如 果 它 们 能 够 合并 ， 那么 就 像 第 2 步 那 样 直接 对 它们 的 概括 统计 值 进行 
合并 即 可 。 

决定 点 是 否 足够 接近 入 

从 直觉 上 说 ， 每 个 艇 在 每 个 维度 上 都 有 一 个 大 小 表示 在 那个 维度 上 典型 的 点 的 延伸 距离 。 
由 于 我 们 只 有 概括 统计 值 可 以 使 用 ， 那 个 维度 上 的 标准 差 便 成 了 合适 的 参数 。 回 忆 11. 5.5 节 中 ， 


356 B -RD LKKREEAR SA 








我 们 可 以 根据 概括 统计 值 计算 标准 差 ， 具 体 地 说 ， 标 准 差 是 方差 的 平方 根 。 然 而 ， 簇 的 分 布 可 能 
是 “雪茄 型 * 的 ， 因 此 各 个 维度 上 的 标准 差 可 能 差别 很 大 。 我 们 希望 合并 进 簇 中 的 点 在 任何 维度 
上 相对 于 该 维度 上 的 标准 差 都 和 质心 距离 不 远 。 

于 是 ,为 了 考虑 点 p= (xi，x,，…，%) 是 否 应 该 合并 入 某 个 簇 ， 我 们 首先 要 对 其 进行 关于 
簇 的 质心 和 标准 差 的 归 一 化 。 具 体 地 ， 我 们 把 点 转换 成 p= (y;，y,，…，y,)， 其 中 yy =x- 
¢,)/o,, HM) c; 是 质心 在 第 i 维 上 的 分 量 ，o, 是 第 i 维 上 的 标准 差 。 归 一 化 后 点 p 到 质心 的 距 


离 就 是 点 p’ 到 原点 的 绝对 距离 ， 也 就 是 $r 。 这 个 距离 有 时 被 称 为 马 氏 距离 ， 当 然 这 实际 上 


只 是 这 个 概念 的 一 个 简化 版 本 。 
例 11.17 假设 有 点 P(5，10，15) ， 我 们 考虑 是 否 把 它 加 入 到 质心 为 (10，20，5 ) RH. 
另外 ， 假 设 这 个 簇 在 三 个 维度 上 的 标准 差分 别 是 1、2 10, HA, Rp 的 马 氏 距离 为 


/((5 -10)/1)? + ((10 -20)/2)? + ((15 —5)/10)? = V25 +25 +1 =7. 14 








口 

得 到 点 闻 的 马 氏 距离 之 后 ， 我 们 可 以 选择 一 个 闪 值 用 来 决定 是 否 将 忆 加 入 到 一 个 焦 中 。 举 例 
来 说 ， 假 设 我 们 以 3 为 冰 值 ， 也 就 是 说 ， 我 们 将 一 个 点 加 入 到 一 个 化 中 ， 当 且 仅 当 这 个 点 到 这 个 
簇 的 质心 的 马 氏 距离 小 于 等 于 3。 当 数值 分 布 很 普通 时 ， 很 少 有 值 偏离 均值 超过 3 标准 差 (大 约 
只 有 百 万 分 之 一 的 值 会 和 均值 差距 如 此 之 大 ) 。 于 是 ， 我 们 只 可 能 阻止 百 万 分 之 一 的 点 被 归 人 敌 
中 。 最 终 ， 被 阻止 的 点 很 有 可 能 仍 被 妇 入 这 个 徐 ， 如 果 没 有 其 他 距离 更 接近 它 的 徐 的 话 。 

决定 是 否 合并 压缩 集中 的 组 

在 11.5.3 节 , 我 们 讨论 过 如 何 计算 一 个 侯 的 凝聚 性 指数 。 然 而 ， 在 BFR 算法 中 ,我们 需要 
对 这 些 想法 进行 修正 ， 使 得 关于 两 个 组 是 否 合并 的 决定 能 够 仅仅 基于 它们 的 概括 统计 值 来 做 出 。 
下 面 是 一 些 可 供 选 择 的 方法 : 

1. 设 定 有 待 合并 的 组 在 每 个 维度 上 方差 之 和 的 上 限 。 其 中 ， 两 个 组 合并 后 的 概括 统计 值 可 
以 由 相关 参数 累加 得 到 ， 而 每 个 维度 上 方差 的 计算 可 以 使 用 11.5.5 节 中 的 公式 。 这 个 方法 可 以 
限制 合并 后 组 所 占据 的 空间 大 小 。 包 含有 距离 过 大 的 典型 的 点 对 的 组 一 定 会 超过 这 个 方差 上 限 ， 
无 论 这 个 组 中 有 多 少 个 点 以 及 在 这 个 组 所 占据 的 空间 中 点 的 密度 如 何 。 

2. 设 定 任何 维度 上 直径 的 上 限 。 由 于 我 们 并 不 知道 具体 点 的 位 置 ， 因 此 我 们 无 法 得 到 精确 
的 直径 。 然 而 ,我们 用 第 i 维 上 两 个 组 的 质心 距离 加 上 两 个 组 的 标准 差 来 估计 第 i 维 上 的 直径 。 
这 个 方法 也 可 以 限制 合并 后 的 组 所 占 空间 的 大 小 。 

3. 使 用 前 两 个 方法 中 的 一 个 ,但 是 将 计算 所 得 值 (方差 之 和 或 最 大 直径 ) 除 以 类 似 入 或 YN 这 
样 随 着 组 中 点 的 增多 而 增 大 的 变量 。 这 种 方法 的 特点 是 ， 只 要 合并 后 的 组 能 保持 所 占 空间 中 的 
点 的 密度 ， 那 它 就 被 允许 占据 更 大 的 空间 。 


11.5.7 习题 

! 习 题 11. 5. 1 WAFER rel, BF L-norm 的 距离 定义 都 满足 距离 定义 的 公理 。 那 么 , r <1 时 又 如 
何 呢 ? 

习题 11. 5.2 在 例 11. 14 中 ,我 们 使 用 两 个 簇 中 点 对 的 距离 最 小 值 作为 徐 与 簇 之 间接 近 程 度 的 衡量 标准 ， 
对 图 11-13 中 的 点 进行 了 层次 化 的 率 秘 方法 。 请 使 用 如 下 距离 衡量 方法 重复 例子 中 的 过 程 : 
a) 所 有 点 对 距离 的 最 大 值 (两 个 艇 各 取 一 个 点 )。 
b) 所 有 点 对 距离 的 平均 值 (两 个 徐 各 取 一 个 点 )。 
c) AMEN DER 

习题 11. 5. 3 我 们 可 以 用 另 一 种 距离 定义 来 对 例 11. 14 进行 修改 。 假 设 我 们 使 用 Le -norm 作为 距离 定义 。 
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这 个 距离 是 指 所 有 维度 上 坐标 差 值 的 最 大 值 。 但 是 ， 当 距离 相等 时 ， 你 可 以 通过 比较 第 二 大 差 值 


来 继续 比较 。 请 使 用 这 个 距离 定义 来 演示 图 11-13 中 点 的 聚 贸 过 程 。 
习题 11. 5.4 假设 我 们 希望 从 图 11-13 的 点 中 选 出 3 个 作为 聚焦 的 基础 。 并 且 ， 像 例 11. 15 中 所 示 ， 我 们 
希望 它们 之 间 的 距离 尽 可 能 大 。 请 问 我 们 从 a) 点 Di b) 点 下 开始 会 选 什么 点 ? 
习题 11.5.5 在 11.5.5 节 中 提 到 ，BFR 算法 通过 概括 统计 值 来 表示 艇 的 信息 。 假 设 当前 的 某 个 能 为 1(1， 
2), (3, 4), (5, 6), (0, 4) | 。 请 写 出 这 个 钢 的 所 有 概括 统计 值 。 
习题 11. 5. 6 对 于 图 11-13 中 的 每 个 点 对 : 
a) 计算 (L, -norm) o 
b) 计算 曼哈顿 距离 (Li -norm) 。 
习题 11. 5.7 根据 例 11. 17 中 给 出 的 簇 的 信息 ,计算 以 下 两 点 的 马 氏 距离 ; 
a) (7, 23, 10)。 
b) (10, 15, 20), 


11.6 


小 结 


数据 挖掘: 寻找 、 发 掘 数据 中 蕴含 的 简单 的 概括 信息 的 过 程 和 方法 。 

市 场 -购物 篮 模型 : 一 种 常见 的 表示 多 对 多 关系 的 方式 ， 它 表现 为 一 些 购物 篮 以 及 购物 
篮 中 的 商品 集合 。 通 常情 况 下 ， 此 类 模型 的 数据 不 以 关系 形式 表现 ， 而 是 以 每 个 购物 篮 
为 单位 的 文件 形式 表现 。 应 用 于 此 类 模型 的 算法 通常 需要 多 趟 访问 这 个 文件 ， 并 且 这 些 
算法 的 时 间 代 价 就 是 它 访问 文件 的 次 数 。 

BRAK: 一 种 对 于 市 场 - 购物 篮 模型 的 重要 概括 信息 便 是 一 些 频繁 项 集 一 一 些 至 少 
出 现在 一 定数 量 的 购物 篮 中 的 商品 的 集合 。 使 得 一 个 商品 集合 能 成 为 频繁 项 集 的 最 少 的 
购物 篮 数 目 叫做 支持 度 病 值 。 

A-Priori 算法 : 一 个 寻找 频繁 项 集 的 算法 。 它 基于 如 下 发 现 ， 即 如 果 一 个 商品 集合 出 现 至 
少 * 次 ,那么 它 的 任何 子 集 也 一 定 如 此 。 对 于 每 个 项 集 大 小 ， 我 们 从 候选 集 开 始 ， 即 所 
有 其 直接 子 集 ( 比 原 集合 少 一 个 元 素 的 集合 ) 都 是 频繁 项 集 的 集合 。 然 后 ， 我 们 通过 一 趟 
扫描 统计 每 个 候选 集 出 现 的 次 数 ， 以 决定 哪些 是 真正 的 频繁 项 集 。 

PCY 算法 : 这 个 算法 在 统计 单元 集 时 相 比 A-Priori 算法 更 好 地 使 用 了 主 存 空间 。PCY 算法 
将 所 有 二 元 集 都 散 列 到 桶 中 ， 并 统计 每 个 桶 所 含 二 元 集 的 出 现 次 数 总 和 。 如 果 一 个 二 元 
集 能 够 进入 候选 集 ， 它 必须 同时 满足 所 含 的 两 个 单元 集 都 是 频繁 项 集 ， 以 及 被 散 列 到 的 
桶 的 统计 值 超过 支持 度 阔 值 这 两 个 条 件 。 

SARE: 这 个 算法 改进 了 PCY 算法 ， 它 通过 对 数据 的 多 趟 扫描 对 每 个 二 元 集 使 用 不 同 
的 散 列 函 数 进行 多 次 散 列 。 在 最 后 一 次 扫描 时 ， 一 个 二 元 集 能 够 进入 候选 集 必须 同时 满 
E: 所 含 的 两 个 单元 集 都 是 频繁 项 集 ， 以 及 被 散 列 到 的 每 一 个 桶 的 统计 值 都 超过 支持 度 
RUE. 

相似 集合 和 Jaccard 相似 度 : 另 一 种 对 于 市 场 -购物 复数 据 的 重要 应 用 是 发 现 相 似 的 购物 
篮 ， 即 包含 大 量 相同 商品 的 成 对 的 购物 篮 。 一 个 重要 的 衡量 指标 就 是 Jaccard 相似 度 一 一 
两 个 集合 的 交集 与 并 集 的 大 小 之 比 。 

shingling 文档 : 我 们 可 以 通过 把 文档 转换 到 它 的 上 -shingle 一 一 文档 中 所 有 上 大 个 连续 字母 组 
成 的 子 串 ， 来 发 现 相 似 的 文档 。 通 过 这 种 方法 ， 寻 找 相似 文档 的 问题 就 能 使 用 任何 寻找 
相似 集合 的 技术 来 解决 。 

最 小 散 列 标签 : 我 们 可 以 用 短小 的 标签 来 表示 集合 的 信息 ， 以 便 我 们 佑 算 它 们 所 表示 集 
合 的 Jaccard 相似 度 。 这 种 方法 通过 多 个 散 列 函 数 来 实现 选择 一 个 随机 全 排列 的 最 小 散 
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列 。 每 个 全 排列 将 一 个 集合 映射 到 该 集合 所 包含 的 在 全 排列 中 最 先 出 现 的 那个 元 素 ， 而 
该 集合 的 标签 就 是 应 用 每 个 全 排列 后 得 到 的 元 素 所 构成 的 序列 。 

最 小 散 列 标签 以 及 Jaccard 相似 度 : 最 小 散 列 标签 能 够 表示 原 集合 的 原因 是 Jaccard 相似 度 
其 实 等 于 两 个 集合 的 最 小 散 列 值 相同 的 概率 。 于 是 ， 我 们 可 以 通过 统计 两 个 集合 最 小 散 
列 标签 中 对 应 元 素 相等 的 个 数 来 估算 它们 的 Jaccard 相似 度 。 

局 部 敏感 散 列 : 为 了 避免 比较 所 有 的 成 对 标签 ， 局 部 敏感 散 列 方法 将 标签 分 成 多 个 带 ， 
只 有 当 丙 个 标签 在 至 少 一 个 带 上 完全 相同 时 ， 我 们 才 会 对 它们 进行 比较 。 通 过 调整 带 的 
数目 和 每 个 带 上 的 行 数 ， 我 们 可 以 将 精力 集中 于 只 比较 那些 很 有 可 能 满足 相似 度 阔 值 的 
标签 对 。 

RA: 根据 某 个 距离 定义 ， 寻找 相似 的 事物 (点 ) 所 构成 的 小 组 ( 簇 ) 的 问题 。 一 种 方法 被 
称 作 凝聚 式 的 ， 它 通过 不 断 合并 邻近 的 簇 组 成 更 大 的 铸 来 实现 聚 簇 。 另 一 种 方法 是 先 售 
计 簇 的 初始 位 置 ， 然 后 将 点 分 配 到 距离 最 接近 的 簇 中 。 

距离 定义 : 在 一 个 点 集 上 的 距离 定义 是 能 将 任意 两 个 点 映射 到 一 个 非 负 值 的 函数 。 这 个 
函数 值 为 0 时 当 且 仅 当 两 个 点 相同 ， 并 且 这 个 函数 还 必须 满足 对 称 性 和 三 角形 不 等 式 。 
常用 的 距离 定义 : 如 果 点 处 在 欧式 空间 中 ， 即 包含 多 个 维度 以 及 坐标 系统 的 空间 ， 我 们 
可 以 使 用 传统 的 欧式 距离 或 其 变种 ， 例 如 曼哈顿 距离 (所 有 维度 坐标 差 之 和 ) 。 在 非 欧 空 
间 中 ,我 们 可 以 使 用 例如 集合 之 间 的 Jaccard 距离 (1 减 去 Jaccard 相似 度 ) 或 者 字符 串 之 间 
的 编辑 距离 来 作为 距离 的 定义 。 

BFR 算法 : 这 个 算法 是 由 %-Means 算法 (将 点 分 成 个 簇 ) 演 变 而 来 。BFR 算法 的 目的 是 
解决 数据 规模 超过 主 存 大 小 的 聚 簇 问题 。 为 了 达到 这 个 目的 ， 它 将 绝 大 多 数 点 通过 其 所 
在 簇 的 个 数 、 每 个 维度 上 的 坐标 以 及 每 个 维度 上 的 坐标 平方 和 来 进行 压缩 存储 。 


11.7 参考 文献 
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非 主 存 数据 集 的 聚焦 算 法 最 早出 现在 文献 [11] 中 ，BFR 算法 来 自 文献 [3] 。 
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第 12 章 数据 库 系统 与 互联 网 


万 维 网 时 代 对 数据 库 技 术 产生 了 深远 的 影响 。 尽 管 传统 的 关系 数据 库 仍 然 在 支持 着 诸多 最 
重要 的 Web 应 用 ,但 Web 应 用 也 推动 了 数据 库 领 域 中 对 新 形式 的 探讨 。 通 常 ， 海 量 的 数据 并 不 
存在 于 关系 型 DBMS 中 ， 而 是 采用 复杂 的 即席 的 文件 结构 。 这 种 现象 的 一 个 最 重要 的 例子 就 是 搜 
索引 擎 管理 数据 的 方式 。 因 此 ， 在 这 一 章 里 ,我 们 将 研究 抓 取 Web 页 面 并 回答 搜索 引擎 查询 的 
算法 。 

其 他 数据 源 本 质 上 是 动态 的 。 与 存在 于 数据 库 中 的 数据 不 一 样 ， 这 些 数据 是 信息 的 流 ， 在 数 
据 到 达 时 要 么 处 理 和 存放 ， 要么 直接 丢弃 。 在 主要 Web 站 点 上 的 点 击 流 ( URL 请 求 序列 ) 便 是 一 
个 例子 。 也 存在 与 Web 无 关 的 数据 流 ， 例 如 在 网 络 中 传播 的 所 有 电话 呼叫 所 产生 的 “详细 呼叫 记 
录 ”， 以 及 由 卫星 和 传感器 网 络 所 产生 的 数据 。 因 此 ， 本 章 第 二 部 分 将 重点 讨论 流 数据 模型 ， 以 
及 管理 数据 流 形式 的 大 量 数据 所 需 的 技术 。 


12.1 搜索 引擎 体系 结构 


搜索 引擎 已 经 成 为 21 世纪 最 重要 的 工具 之 一 。 由 主要 的 搜索 引 苟 所 管理 的 库存 已 跻身 于 地 
球 上 最 大 的 数据 库 之 列 ， 而 且 毫 无 疑问 ， 在 访问 频率 与 访问 用 户 数 上 ， 它 超过 了 任何 其 他 数据 
库 。 在 这 一 节 ， 我 们 将 研究 搜索 引擎 的 关键 成 分 ， 如 图 12-1 所 示 。 


用 户 ~ 排 好 名 
的 网 页 





图 12-1 搜索 引擎 的 组 成 


12.1.1 搜索 引擎 的 组 成 

一 个 搜索 引擎 必须 具备 以 下 两 种 主要 功能 : 

1. 抓 取 网 页 。 也 就 是 说 ， 将 Web 上 的 众多 页 面 抓 人 到 搜索 引擎 中 并 进行 处 理 。 

2. 基于 从 Web 中 收集 到 的 材料 来 回答 查询 。 通 常 ， 查 询 以 目标 网 页 中 应 该 包含 的 一 个 或 多 
个 词 的 形式 来 表示 ， 一 个 查询 的 结果 是 包含 所 有 这 些 词 (或 至 少 包含 其 中 的 一 些 词 ) 的 那些 网 页 
排名 的 列表 。 
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因此 ， 在 图 12-1 PSR TAB, Mk (crawler) 不 仅 和 Web 进行 交互 ， 还 与 网 页 库 (page repos- 
itory ) 进行 交互 。 网 页 库 是 由 怜 虫 所 发 现 的 网 页 所 组 成 的 数据 库 。 我 们 会 在 12. 1. 2 PMR 
进行 详细 讨论 。 
”需要 对 网 页 库 中 的 网 页 建立 索引 ， 一 般 为 倒 排 索引 ， 就 是 3. 1. 8 节 所 介绍 的 那 类 索引 。 即 每 
一 个 词 都 对 应 一 个 包含 它 的 所 有 网 页 的 列表 。 索 引 中 关于 词 的 附加 信息 可 以 包含 词 在 网 页 中 的 
位 置 或 作用 ， 例 如 词 是 否 出 现在 标题 位 置 。 

在 图 12-1 中 ， 我 们 还 看 到 用 户 给 出 一 个 查询 ， 查 询 中 包括 一 个 或 多 个 词 。 查 询 引擎 使 用 这 
些 词 与 索引 进行 交互 ， 来 确定 哪些 网 页 满足 查询 。 然 后 这 些 网 页 由 一 个 ranker 进行 排序 ， 并 依据 
排序 结果 将 网 页 呈现 给 用 户 ， 通 常 一 次 显示 10 个 。 我 们 将 在 12.1.3 节 具 体 介 绍 查询 处 理 过 程 。 


12.1.2 Web 爬虫 

一 个 爬虫 可 由 一 台 机 器 来 担当 ， 由 一 个 集合 $ 开始 ，5 中 包含 要 抓 取 的 一 个 或 多 个 Web 页 面 
的 URL。 还 有 一 个 网 页 库 尺 ,RR 中 网 页 的 URL 是 爬虫 访问 过 的 ， 最 初时 届 为 空 。 

一 个 简单 的 Web EH. 

输入 初始 的 URL 集合 So 

HH ARER, 

FH 疏 虫 反复 执行 如 下 几 个 步骤 : 

1. WARS HE, WKAR, 

2 从 5 中 选取 一 个 网 页 p 进行 “ 抓 取 ”， 并 将 p 从 5 中 删除 。 - 

3. Æ pi URL， 获 得 网 页 的 一 个 拷贝 。 如 果 忆 已 经 在 尺 中 ， 则 返回 到 第 1 步 另 选 一 个 
网 页 。 

4. 如 果 p 还 不 在 尺 中 ， 则 执行 下 面 两 步 : 

a) 将 p 加 入 到 R 

b) 检查 p 中 指向 其 他 网 页 的 链接 ， 将 p 链接 到 的 但 还 不 在 民 或 S$ 中 的 每 一 个 网 页 g 的 URL 
GAZ SH, 

5. 转 到 步骤 1。 

算法 12. 1 引出 了 以 下 几 个 问题 : 

a) 如 果 不 想 搜索 整个 Web ， 我 们 怎么 终止 搜索 ? 

b) 如 何 有 效 地 检查 网 页 是 否 已 在 RR 中 ? 

c) WAM S 中 选取 下 一 个 搜索 网 页 ? 

d) 如 何 提高 搜索 速度 ? 例如 ， 能 香 采 用 并 行 方式 ? 


终止 搜索 

即使 想 搜索 “整个 Web”， 我 们 也 必须 对 搜索 有 所 限制 。 原 因 在 于 有 些 网 页 是 动态 生成 的 ， 
当 息 虫 访问 一 个 站 点 上 的 URL 时 ,站 点 本 身 会 生成 网 页 。 更 为 糟糕 的 是 ， 新 生成 的 网 页 或 许 也 
会 有 指向 动态 生成 的 网 页 的 URL， 这 会 导致 仆 虫 无 休止 地 搜索 下 去 。 

因此 ， 我 们 有 必要 在 某 一 个 点 上 结束 搜索 。 例 如 ， 我 们 可 以 对 要 抓 取 的 网 页 数量 进行 限制 ， 
当 数 量 达 到 某 个 界限 时 ， 礁 虫 终 止 。 限 制 可 以 是 针对 每 一 个 站 点 ， 也 可 以 是 针对 要 抓 取 的 网 页 总 
数 。 另 外 ， 我 们 也 可 以 限制 抓 取 的 深度 。 也 就 是 说 ， 最 初 存在 于 集合 S 中 的 网 页 的 深度 为 1， 如 
果 在 算法 12. 1 的 第 2 步 选 取 一 个 深度 为 i 的 网 页 p， 则 在 第 4b 步 添加 到 5 中 的 网 页 q 的 深度 为 
i+1。 然 而 ， 如 果 p 的 深度 已 达到 所 设 的 限制 ， 我们 就 不 必 检 查 p 中 的 链接 ， 如 果 p 还 不 在 R 中 ， 
简单 地 将 p 加 入 到 RR RAT, 


362 Br RKKRBAAR EA 





管理 网 页 库 

有 两 个 地 方 我 们 需要 避免 重复 工作 。 首 先 在 将 网 页 q 所 对 应 的 新 的 URL 加 入 到 集合 S 时 ， 
我 们 应 检查 它 是 否 已 在 $ 中 ,或 它 是 否 是 尺 中 的 网 页 的 URL。 由 于 在 尺 和 /或 $ 中 会 有 数 以 10 亿 
计 的 URL， 就 需要 使 用 一 个 如 第 3 章 所 介绍 的 有 效 的 索引 结构 来 做 这 个 检查 的 工作 。 

其 次 ， 在 算法 12. 1 的 第 4a 步 ， 当 我 们 决定 将 一 个 新 网 页 p 加 入 到 R 中 时 ,我们 要 保证 p 
还 不 在 RR 中。 既然 每 一 个 URL 只 被 抓 取 一 次 , R 中 怎么 有 可 能 已 经 存在 网 页 p R? TERE, 
同一 个 网 页 可 以 有 几 个 不 同 的 URL， 所 以 我 们 的 候 虫 可 能 会 通过 不 同 的 路 由 访问 到 同一 个 网 
页 。 另 外 ， 在 Web 中 存在 镜像 站 点 ， 导 致 大 量 网 页 被 完全 复制 或 几乎 完全 复制 (例如 ， 在 一 个 
站 点 内 ， 每 一 个 网 页 对 应 于 不 同 的 内 部 链接 ， 并 且 每 一 个 可 能 指向 其 他 镜像 站 点 ) 。 要 将 一 个 
网 页 p 与 尺 中 的 所 有 网 页 进行 比较 ， 会 非常 耗 时 。 然 而 ， 我 们 可 以 采取 如 下 方式 来 提高 比较 
效率 : 

1. 如 果 我 们 仅 想 发 现 完全 相同 的 副本 ， 可 以 将 每 一 个 Web 页 面 散 列 为 一 个 信号 ， 例 如 一 个 
64 位 的 信号 。 信 号 本 身 被 存放 在 一 个 散 列表 7 中 ， 即 这 些 信 号 本 身 又 被 散 列 函数 映射 到 数目 更 
少 的 桶 中 ， 例 如 100 万 个 桶 。 当 我 们 要 将 p 插入 R 中 时 ,首先 计算 64 位 的 信号 h(p)， 再 检查 
h(p) 是 否 已 在 散 列 表 T 中 。 如 果 已 存在 , Mp 不 邦人 R 中 ; 否则 ， 存 人 尺 中 。 需 要 注意 的 是 我 
们 可 能 会 产生 一 些 误 报 ， 表 现 为 了 中 已 有 信号 h(p)， 但 不 是 p 而 是 其 他 网 页 产生 了 这 个 相同 的 
信号 。 然 而， 通过 使 信号 足够 长 ， 我 们 可 以 将 误 报 的 概率 降低 到 实质 上 为 0。 

2. 如 果 我 们 想 发 现 与 p 几乎 相同 的 副本 ， 可 以 存储 最 小 散 列 标注 (参见 11. 3 节 ) 来 代替 第 1 
步 中 所 提 到 的 简单 散 列 信号 。 另 外 ， 我 们 需要 使 用 局 部 敏感 的 散 列 (参见 11.4 节 ) 来 代替 第 1 步 
中 的 简单 散 列表 To 

选择 下 一 个 网 页 

我 们 可 以 用 完全 随机 的 方式 来 选取 下 一 个 网 页 。 一 个 更 好 的 策略 是 : 将 5 作为 一 个 队列 来 管 
理 ， 从 我 们 初始 化 5 的 起 始点 开始 ， 对 Web 进行 广度 优先 搜索 。 既 然 我 们 假定 是 从 Web 中 包含 
“重要 ”网 页 的 位 置 开 始 搜索 ， 因 此 我 们 相信 优先 访问 到 的 部 分 也 应 是 那些 “重要 "网 页 的 作者 认 
为 也 很 重要 的 部 分 。 

另 一 个 方法 是 去 估计 集合 $ 中 网 页 的 重要 程度 ， 并 对 那些 我 们 认为 最 重要 的 网 页 进行 优先 访 
问 。 在 12. 2 节 中 我 们 将 采用 PageRank 作为 一 个 衡量 标准 ， 以 衡 量 Web 对 特定 网 页 赋予 的 重要 程 
度 。 在 息 虫 工作 的 过 程 中 ， 不 可 能 准确 计算 出 PageRank。 然 而 ， 有 一 个 简单 的 近似 办 法 来 统计 5 
中 每 个 网 页 的 已 知 的 链 入 数 。 这 就 是 ， 在 算法 12. 1 的 第 4b 步 ， 每 当 检 查 到 一 个 指向 网 页 9 的 链 
接 ， 我 们 就 将 q 的 链 入 数 加 1。 于 是 ， 在 第 2 步 ， 选 取 下 一 个 抓 取 对 每 p 时 ， 我们 总 是 选择 链 入 
数 最 大 的 网 页 之 一 。 

提高 仆 虫 的 速度 

爬 取 的 机 器 不 必 限 制 为 一 各， 每 台 机 器 上 也 不 必 只 使 用 一 个 进程 。 每 一 个 进程 在 处 理 当 前 
的 URL 集合 (在 算法 12. 1 中 我 们 将 该 集合 称 为 S) 时 ， 必 须 对 集合 加 锁 ， 因 此 ， 任 意 两 个 进程 不 
会 被 同一 个 URL 进行 抓 取 ， 也 不 会 有 两 个 进程 同时 将 相同 的 URL 写 人 集合 中 。 如 果 进 程 过 多 ， 
导致 S$ 上 的 锁 ， 有 如 下 几 个 应 对 措施 。 

我 们 可 以 分 配 一 个 进程 搜索 整个 主机 或 站 点 ， 而 非 单个 的 URL， 这 样 ， 进 程 就 不 必 过 于 频 
繁 地 访问 URL 集合 3S， 因 为 它 知道 当 它 访问 一 个 站 点 时 ， 没 有 其 他 进程 访问 同一 个 站 点 。 

这 个 方法 有 一 个 缺点 。 在 一 个 站 点 上 搜集 网 页 的 息 虫 会 频繁 地 发 送 网 页 请 求 。 这 种 行为 
本 质 上 是 一 种 拒绝 服务 攻击 ， 于 是 站 点 会 疫 于 应 对 所 有 疏 虫 的 请 求 而 无 法 做 有 用 的 工作 。 所 
以 ， 一 个 负责 任 的 疏 虫 不 会 对 一 个 特定 站 点 频繁 地 发 出 请 求 ， 它 可 以 隔 几 秒 钟 发 一 个 请 求 。 
如 果 一 个 怜 虫 进程 正在 访问 某 一 个 站 点 ， 则 它 必 须 把 它 的 请 求 频率 降低 到 它 经 常 处 于 闲置 状 
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状态 的 进程 数 。 

另 一 个 避免 瓶颈 的 方法 是 ， 分 割 集合 3S， 例 如 将 URL 散 列 到 若干 个 桶 中 ， 让 每 一 个 进程 从 某 
一 桶 选取 新 的 URL 进行 息 取 。 当 某 个 进程 沿 着 链接 发 现 了 一 个 新 的 URL 时 ， 会 对 这 个 URL 进行 
散 列 ， 以 决定 这 个 URL 属于 哪 一 个 桶 。 只 需 检 查 一 个 桶 就 可 以 判断 这 个 URL 是 否 已 存在 ， 如 果 
还 不 存在 ， 直 接 将 它 放 在 该 桶 中 。 

TSI URL 集合 S 所 遇 到 的 瓶颈 问题 同样 会 发 生 在 网 页 库 R 和 尺 的 URL 集合 上 。 前 面 提 到 
的 两 个 技术 (将 进程 分 配 到 站 点 ,或 使 用 散 列 函数 来 划分 URL 集合 ) ， 同 样 可 以 用 于 避免 访问 R 
时 带 来 的 瓶颈 问题 。 


12.1.3 搜索 引擎 中 的 查询 处 理 

搜索 引擎 查询 不 同 于 SQL 查询 。 通 常 ， 搜 索引 擎 查询 会 用 到 一 组 关键 词 ， 搜 索引 擎 负责 
出 含有 全 部 或 部 分 关键 词 的 网 页 ， 并 对 那些 网 页 进行 排名 。 有 时 ， 查 询 可 以 是 关键 词 之 间 的 布尔 
组 合 ， 例 如 ， 找 出 所 有 含有 “data” 或 “base” 的 网 页 ; 查询 有 时 还 要 求 两 个 关键 字 在 网 页 中 依次 相 
继 出 现 ， 或 彼此 邻近 ， 例 如 两 个 词 之 间 的 距离 顶 多 为 5。 

要 回答 这 样 的 查询 就 需要 用 到 倒 排 索引 。 回 忆 一 下 我 们 对 图 12-1 的 讨论 : 一 旦 抓 取 结 束 ， 
索引 管理 器 会 对 Web 上 的 所 有 词 建立 一 个 倒 排 索引 。 需 要 注意 的 是 ， 由 于 任何 一 个 由 标点 或 空 
格 隔 开 的 字母 、 数 字 组 合 都 是 一 个 可 以 索引 的 词 ， 就 会 有 上 亿 个 词 。 因 此 ，Web 上 的 “ 词 "不 仅 
包括 世界 上 各 种 自然 语言 的 任何 词汇 ， 还 包括 词 的 所 有 错误 拼写 、 系 统 中 的 任何 错误 代码 、 缩 略 
词 、 名 字 ， 以 及 各 种 各 样 的 行 话 。 

查询 处 理 的 第 一 步 是 使 用 倒 排 索引 来 检查 哪些 网 页 含有 查询 关键 字 。 为 了 确保 将 响应 时 间 
限制 在 用 户 可 接受 的 范围 内 ， 这 一 步 必 须 尽 可 能 少 地 进行 磁盘 访问 (如 果 必 须要 进行 磁盘 访问 的 
话 ) 。 当 今 的 搜索 引擎 的 响应 时 间 一 般 不 超过 1s， 这 个 时 间 很 得 ， 只 相当 于 几 次 磁盘 访问 的 
时 间 。 

另 一 方面 ， 我 们 用 向 量 来 表示 单个 词 的 出 现 情况 ， 对 于 搜索 引擎 索引 到 的 每 个 网 页 在 这 些 
向 量 中 都 有 对 应 的 分 量 ， 这 些 网 页 可 能 数 以 百 亿 计 。 尽 管 对 于 极 个 别 不 常用 的 词 ， 可 以 一 一 列 出 
相关 网 页 ， 但 对 于 普通 词 或 者 不 太 偏僻 的 词 ， 用 一 个 位 向 量 来 表达 这 个 词 在 哪些 网 页 上 出 现 ， 会 
更 有 效 。 对 位 向 量 进行 “与 "运算 ， 可 以 得 出 同时 包含 两 个 词 的 网 页 ， 进 行 “ 或 ?运算 则 可 以 得 出 
包含 其 中 一 个 词 或 同时 包含 两 个 词 的 网 页 。 为 了 提高 选择 网 页 的 速度 ， 有 必要 在 内 存 中 保存 尽 
可 能 多 的 向 量 ， 以 避免 访问 磁盘 。 机 器 集群 可 以 分 割 这 项 工作 ， 即 每 一 个 机 器 管理 对 应 于 某 个 网 
页 子 集 的 那 部 分 位 向 量 。 


12.1.4 对 网 页 进行 排名 

在 找 出 满足 查询 条 件 的 网 页 集合 之 后 ， 还 要 对 这 些 网 页 进行 排名 ， 只 将 排名 最 高 的 那些 网 
页 显示 给 用 户 。 对 网 页 进行 排名 的 具体 方法 是 搜索 引擎 严格 保密 的 ， 正 如 可 口 可 乐 公司 看 护 自 
己 的 秘方 一 样 。 其 中 一 个 重要 的 成 分 是 “ PageRank”， 用 它 来 衡量 Web 自己 对 这 个 网 页 的 重要 程 
度 的 认识 。 这 个 衡量 标准 基于 指向 网 页 的 链接 数 ， 但 实际 上 远 比 这 复杂 得 多 。 我 们 会 在 12.2 节 
详细 讨论 PageRank, 

还 有 其 他 标准 用 于 衡量 一 个 网 页 与 查询 相关 的 程度 ， 这 些 标准 也 易于 理解 。 下 面 列 出 了 衡 
量 网 页 相关 程度 的 典型 成 分 。 

1. 所 有 查询 关键 字 在 网 页 中 的 出 现 。 如 果 搜 索引 擎 也 返回 了 只 包含 关键 字 子 集 的 网 页 ， 这 
些 网 页 的 排名 通常 会 低 于 含有 全 部 关键 字 的 网 页 。 

2. 查询 关键 字 出 现在 网 页 的 重要 位 置 。 例 如 ， 我 们 认为 ,一 个 关键 字 出 现在 网 页 的 标题 部 
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分 比 仅仅 出 现在 段落 中 更 强烈 地 说 明 网 页 与 这 个 关键 字 相 关 。 同 样 ， 关 键 字 出 现在 表 的 表 头 比 
出 现在 表 的 某 一 数据 单元 更 能 说 明 网 页 的 相关 性 。 

3. 多 个 查询 关键 字 在 网 页 中 距离 很 近 ， 比 分 散 地 出 现在 网 页 中 更 能 说 明 网 页 的 相关 性 。 例 
如 ， 如 果 一 个 查询 由 “sally” H“ jones” 组成， 我 们 可 能 在 找 提 到 某 一 个 特定 的 人 的 网 页 。 许 多 网 
页 上 都 包含 一 系列 的 名 字 。 如 果 “sally” 和 “jones” 在 网 页 中 紧邻 着 出 现 , 或 只 被 一 个 大 写字 母 隔 
开 ， 这 个 网 页 极 有 可 能 是 我 们 想 要 的 。 而 如 果 “sally” BREM, 但 距离 “jones” 很 远 ， 这 个 网 页 
就 不 一 定 是 我 们 想 要 的 。 在 后 面 一 种 情况 下 ， 很 可 能 提 及 的 是 两 个 人 ， 一 个 名 是 Saly， 另 一 个 
EF Jones, 

4. 查询 关键 字 在 链接 到 网 页 的 锁 文 本 中 出 现 , 或 邻近 销 文本 。 一 个 网 页 内 部 可 以 进行 词汇 
设计 ,欺骗 人 们 相信 它 是 查询 相关 的 ,但 通过 别人 的 网 页 进行 欺骗 会 很 困难 。 


12.2 用 于 识别 重要 网 页 的 PageRank 


在 搜索 领域 一 个 关键 的 技术 是 PageRank ” 算法， 用 于 确定 We 页 面 的 重要 程度 。 在 这 一 节 ， 
我 们 将 解释 算法 的 工作 原理 ， 并 且说 明 如 何 对 非常 大 量 的 Web 页 面 计算 PageRank。 


12.2.1 PageRank 的 直观 思想 

Web 本 身 能 够 指出 重要 的 网 页 ， 正 是 这 一 观察 使 搜索 引擎 能 够 返回 主题 相关 的 重要 网 页 。 
当 你 制作 了 一 个 网 页 ， 你 会 将 它 链 接 到 你 认为 很 重要 或 者 很 有 价值 的 网 页 ， 而 不 会 链接 到 你 认 
为 无 价值 的 网 页 。 当 然 其 他 的 人 观点 可 能 会 有 所 不 同 ， 但 总 而 言 之 ， 循 着 链接 找到 某 网 页 的 路 径 
越 多 ， 这 个 网 页 就 可 能 越 重要 。 

我 们 可 以 通过 假想 在 Web 上 有 一 个 随机 的 漫步 者 来 将 这 一 思想 形式 化 。 在 每 一 步 ， 该 随机 
漫步 者 会 位 于 某 个 网 页 pp， 并 且 在 p 所 指向 的 网 页 中 随机 地 选择 一 个 。 下 一 步 ， 漫 步 者 会 到 达 网 
页 p 的 他 所 选中 的 那个 后 继 页 面 。 因 此 ，Web 的 链接 结构 决定 了 漫步 者 访问 每 一 个 网 页 的 概率 。 
这 个 概率 被 命名 为 网 页 的 PageRank。 

从 直观 上 看 ， 被 许多 其 他 网 页 指向 的 网 页 要 比 几乎 没有 链 人 的 网 页 更 有 可 能 被 漫步 者 访问 
到 。 但 是 并 非 所 有 的 链 入 都 有 同样 价值 。 一 个 网 页 虽然 链 入 很 少 ,但 链接 到 它 的 那些 网 页 很 有 可 
能 被 漫步 者 访问 到 ; 这 种 情况 胜 于 链 入 虽 多 ,但 链接 到 它 的 那些 网 页 极 少 或 根本 不 可 能 被 漫步 
者 访问 到 。 因 此 ， 仅 靠 统 计 链 人 数 来 计算 PageRank 是 不 够 的 。 我 们 需要 解 递归 公式 ， 该 公式 是 
用 来 形式 化 下 面 这 个 思想 : 

。 如 果 有 许多 重要 的 网 页 链接 到 一 个 网 页 ， 则 这 个 网 页 也 是 重要 的 。 


12.2.2 PageRank 的 递归 公式 初步 尝试 

我 们 可 以 用 Web 转移 矩阵 来 描述 随机 漫步 者 如 何 移动 。 将 网 页 依次 编号 为 1，2，…, n。 在 
Web 转移 矩阵 M H, MFR i 行 第 j 列 的 元 素 my 定义 如 下 : 

1. my = 1/r， 如 果 网 页 7 有 一 个 链接 指向 网 页 i,， 并 且 j 共 指向 rrz1) 个 网 页 。 

2. my =0， 其 他 情况 。 

如 果 每 一 个 网 页 都 至 少 有 一 个 链 出 ， 则 转移 矩阵 是 ( 左 ) 随机 的 一 一 元 素 都 是 非 负数 ， 并 且 
每 一 列 之 和 都 为 1。 如 果 有 的 网 页 没有 链 出 ， 则 这 样 的 网 页 所 对 应 的 列 全 为 0 值 。 这 时 我 们 称 转 
移 矩 阵 为 半 随 机 矩阵 ( 列 和 至 多 为 1) 。 








© W PageRank 命名 是 为 了 纪念 Larry Page， 他 首次 提出 了 这 个 算法 。 
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例 12.2 众所周知 ，Web 规模 以 指数 形式 增长 ， 所 以 如 果 你 按 此 方式 往 前 推 到 1839 年 ， 你 
会 发 现 那 时 的 Web 仅 包 括 3 个 网 页 。 图 12-2 描述 了 1839 年 的 Web, 
我 们 将 3 个 网 页 分 别 编号 为 1、2、3 ， 由 此 可 得 到 
该 图 所 对 应 的 转移 矩阵 : (> 
| 1/2 1/2 0 | (Yuhoo! ) 
M=|12 0 1 | 
0 1/2 0 ) 


PAK, Microsoft 网 页 所 对 应 的 结 点 3， 仅 仅 有 一 个 
指向 结 点 2 的 链接 ， 结 点 2 对 应 于 Amazon 网 页 。 因 此 
在 M 中 , 第 3 列 只 有 第 2 行 不 是 0， 这 个 值 是 经 过 1 除 


2 
以 结 点 3 的 总 链 出 数 得 到 的 ， 结 果 为 1。 再 举 个 例子 ， Ce Vd) 


Yahoo! 网 页 对 应 的 结 点 1 链接 到 它 自身 和 Amazon( Bp 


结 点 2) 。 因 此 , 第 1 列 中 的 第 3 行 值 为 0, 第 1 和 第 2 图 12-2 1839 年 的 Web 
行 都 是 由 1 除 以 结 点 1 的 总 链 出 数 得 到 的 ， 结 果 均 为 
1/2, O 


PageRank 与 作弊 网 站 的 战争 

在 PageRank 之 前 ， 搜 索引 擎 要 想 识 别 出 Web 上 的 重要 网 页 会 非常 困难 。 常 有 不 道德 的 
Web 站 点 (“spammers”) 会 在 它们 的 页 面 上 放置 虚假 内 容 ， 用 户 看 不 到 ， 但 搜索 引擎 可 以 查 
看 页 面 文本 内 容 ( 例 如 ， 将 所 写 的 内 容 设置 为 和 背景 一 样 的 颜色 ) 。 如 果 搜 索引 擎 只 是 简单 
地 通过 统计 链 入 数 来 衡量 页 面 的 重要 程度 ， 则 spammers 通过 伪造 大 量 网 页 链接 到 某 网 页 就 
可 以 使 搜索 引擎 认为 这 一 网 页 很 重要 。 然 而 ， 简单 地 制造 网 页 并 不 会 提高 这 个 网 页 的 排 
和 名， 因为 真正 重要 的 页 面 不 可 能 链接 到 那样 的 欺骗 网 页 。 于 是 ，PageRank 挫败 了 当今 的 那 
些 spammers。 

有 趣 的 是 ，spammers 和 搜索 引擎 之 间 的 战争 仍 在 继续 。spammers 已 经 学 会 了 如 何 提高 虚 
假 网 页 的 排名 ， 因 此 引出 了 新 技术 ,来 打击 新 形式 的 作 汐 (链接 作 浆 )。 我 们 会 在 12.3.3 节 
St BBE 


假设 随机 漫步 者 在 图 12-2 所 示 的 三 个 网 页 上 停留 的 时 间 片 段 分 别 为 y、a、m。 用 y、a、m 
所 组 成 的 列 向 量 去 乘 WM 不 会 改变 它们 的 值 。 原 因 是 ， 在 漫步 者 移动 了 很 多 步 之 后 ， 不 管 漫步 者 
的 起 始点 是 什么 ， 漫 步 者 所 在 位 置 的 分 布 情况 在 每 一 步 都 是 相同 的 。 也 就 是 说 ，3 个 未 知 数 y, 


a, m 必须 满足 如 下 方程 : 
y 1/2 1/2 0 y 
a |=| 1⁄2 0 1 a 
m 0 1/2 0 m 


尽管 对 于 三 个 未 知 数 有 三 个 公式 ,但 你 得 到 的 解 却 只 能 是 Y、a、m 的 比例 ， 得 不 到 更 多 的 
东西 。 换 句 话 说 ， 如 果 [y，a，m] 是 方程 组 的 解 ， 那 么 对 于 任意 常数 <，[ cy，ca，cmj] 也 是 解 。 
另外 ， 由 于 y、a、m 组 成 了 一 个 概率 分 布 ， 我 们 还 知道 Y+a +m=1。 

虽然 我 们 可 以 不 太 费 劲 地 对 方程 组 求解 ， 但 对 于 由 大 量 未 知 数组 成 的 联 立 线 性 方程 组 ， 解 
方程 组 的 时 间 复 杂 度 将 会 为 0(n ) ， 这 里 n 是 变量 个 数 或 者 方程 个 数 。 对 于 目前 的 Web MK, n 
的 值 大 到 数 十 亿 ， 使 用 高 斯 排除 法 或 者 其 他 直接 方法 来 计算 漫步 者 的 位 置 分 布 情况 就 完全 行 不 
通 了 。 然 而 ， 我们 可 以 使 用 松弛 法 得 到 不 错 的 近似 解 。 在 这 个 方法 中 ， 我 们 首先 给 出 变量 的 估计 
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值 ， 再 不 断 地 用 估计 值 去 乘 用 。 只 要 MM 的 各 列 和 均 为 1， 这 些 变量 的 和 就 不 再 变化 ， 并 且 这 些 
变量 的 值 最 终 会 收敛 到 漫步 者 的 位 置 分 布 。 事 实 上 ，50 到 100 步 的 和 迭代 就 会 很 接近 真实 解 了 。 
例 12.3 我 们 假设 最 初时 有 [y，c，m] =[1/3, 1/3, 1/3], FSR M 得 到 : 


Fa [1 1/2 JE 
3/6 |=] 1/2 0 1 1/3 
1/6 0 1/2 0 1/3 | 


FHP, RAMAS HEL26, 3/6, 1/6] M, VBS: 


| sa | | 1/2 1/2 0 2/6 
4/12 |=] 1/2 0 1 3/6 
3/12 0 1/2 0 | s/a | 


这 一 -迭代 过 程 重 复 下 去 ， 我 们 会 得 到 如 下 一 系列 向 量 值 ; 


| 9/24 | | 20/48 | | 2/5 | 
11/24 | ,| 17/48 ],...,] 2/5 
4/24 11/48 1/5 


这 就 意味 着 ， 漫 步 者 会 渐进 地 、 以 同等 的 可 能 性 选择 Yahoo! 或 者 Amazon ， 而 选择 Microsoft 
的 可 能 性 只 有 前 两 者 的 一 半 。 口 


12.2.3 的 虫 陷阱 和 死角 

图 12-2 所 示 的 Web 图 并 不 典型 ,不仅 是 因为 它 的 规模 ， 还 有 两 个 结构 上 的 原因 : 

1. 一 些 Web 页 面 没 有 链 出 ( 称 作 死 角 )。 如 果 随 机 漫步 者 选择 了 这 样 的 网 页 ， 下 面 就 无 路 可 
ET, BARR AGAR. 

2. 还 有 一 些 Web 页 面 集合 由 于 没有 链 出 指向 集合 之 外 ， 当 漫步 者 到 达 了 这 样 的 网 页 集合 时 ， 
就 无 法 离开 ， 这 些 网 页 集合 称 为 想来 陷阱 。 

FE FCA SRE RB A, Web 爬虫 陷阱 中 的 页 面 也 可 以 都 有 链 出 。 人 例如， 任何 
只 链 出 到 它 自 身 的 网 页 就 是 一 个 咎 虫 陷阱 。 

如 果 从 外 部 可 以 到 达 一 个 爬虫 陷阱 ， 则 随机 漫步 者 会 困 在 那里 ， 再 也 无 法 离开 。 换 名 话说 ， 
如 果 对 含有 仆 虫 陷阱 的 Web 转移 矩阵 应 用 松弛 方法 ， 可 能 会 导致 一 个 限制 性 的 分 布 ， 即 爬虫 陷 
阱 之 外 的 其 他 网 页 所 对 应 的 概率 都 为 0。 

例 12.4 假设 Microsoft 只 链接 到 它 自身 ， 而 非 
Amazon ， 就 会 形成 图 12-3 所 示 的 Web, EE Mi- 


crosoft 网 页 的 集合 就 构成 了 爬虫 陷阱 ， 可 以 通过 其 他 CD 


网 页 到 达 这 个 陷阱 。 对 应 于 图 12-3 的 Web 矩阵 为 : 
, Ne 


1/2 1/2 0 
M=|1/2 0 0 
如 果 我 们 像 例 12.3 中 那样 ， 从 [y, a, m] = [1/ (Camaron ) Steet ) 
3，1/3，1/3] 开 始 ， 并 日 重复 地 去 乘 图 12-3 所 对 应 的 


0 1/2 1 
矩阵 好 ， 我 们 将 得 到 如 下 近似 分 布 序列 : 图 12-3 Microsoft 变 成 私 虫 陷阱 时 的 Web 图 
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FA ie Ea FA E 0 
1/3 | ,| 1/6 |,| 2/12 |,| 3/24 | ,| 5/48 |,...,] 0 
1/3 3/6 7/12 16/24 35/48 | | 1 


这 也 意味 着 ， 漫 步 者 会 最 终 以 值 为 1 的 概率 困 在 Microsoft 网 页 ， 并 一 直 待 在 那儿 。 


如 果 我 们 依据 这 样 的 PageRank 概率 来 衡量 网 页 的 
“重要 ”程度 ，Microsoft 只 需 不 链 出 到 其 他 网 页 就 可 以 把 i N 
所 有 重要 性 集 于 一 身 。 这 显然 违背 了 一- 条 原则 : 网 页 在 (Yahoo!) 
Web 中 的 重要 程度 应 决定 于 其 他 网 页 ， 而 非 决 定 于 它 自 


身 。 我 们 所 提 到 的 另 一 个 问题 一 一 死角 一 一 也 同样 导致 
PageRank 无 法 正确 反映 网 页 的 重要 程度 ， 这 可 以 通过 下 


面 的 例子 来 看 到 。 
例 12.5 假设 像 图 12-4 所 示 的 那样 Microsoft 连 指 2 3 
向 它 自 身 的 链接 也 去 掉 ， 即 没有 任何 链 出 。 则 对 应 的 矩 (amazon) (Micro) 
MMH: 
1/2 1/2 0 图 12-4 Microsoft 变 成 了 死角 
hM=|12 0 0 
| 0 1/2 0 


注意 ， 该 矩阵 不 是 随机 和 矩阵 ， 因 为 M 中 并 非 所 有 列 的 和 都 等 于 1。 如 果 我 们 将 松弛 方法 用 于 
这 个 矩阵 ,将 y、a、m 的 初始 值 置 为 [1/3，1/3 ，1/3] ， 我 们 将 得 到 如 下 序列 : 


1/3 2/6 3/12 5/24 8/48 07 
| 1/3 | | 1/6 | | 2/12 | | 3/24 | | 5/48 | ， | 0 | 
1/3 1/6 1/12 2/24 3/48 0 


这 意味 着 ， 漫 步 者 最 终 会 到 达 Microsoft ， 到 达 之 后 下 一 步 无 路 可 走 。 最 终 ， 漫 步 者 会 消失 。 OF 


12.2.4 考虑 看 虫 陷 阱 和 死角 的 PageRank 

可 以 通过 限制 漫步 者 随机 漫步 的 时 间 来 解决 息 虫 陷阱 和 死角 的 问题 。 我 们 选择 一 个 常量 B， 
B < 1 ,通常 B 在 0.8 到 0.9 的 范围 内 。 在 每 一 步 ， 如 果 有 和 链 出 ,我 们 以 值 为 8B 的 概率 让 漫步 者 
随机 选择 一 个 ， 并 移动 到 对 应 网 页 。 我 们 以 1 -BORELE (taxation rate) ) 的 概率 丢掉 该 漫步 者 ， 
并 产生 一 个 新 的 漫步 者 ,将 它 放 在 随机 选择 的 一 个 网 页 上 。 这 个 修正 解决 了 两 个 问题 : 

。 即使 漫步 者 被 困 在 怜 虫 陷阱 里 也 没有 关系 ， 原 因 是 漫步 者 尝试 了 几 步 之 后 会 消失 ， 并 由 

新 的 漫步 者 取代 。 

。 如 果 一 个 漫步 者 走 到 了 死角 并 消失 ， 一 个 新 的 漫步 者 会 很 快 取而代之 。 

例 12.6 我 们 假设 8 =0.8， 重 新 来 表示 对 计算 图 12-3 所 示 的 Web 的 PageRank 公式 的 计算 ， 
分 别 用 Pu 和 Bu 来 表示 一 次 选 代 后 漫步 者 的 新 、 旧 位 置 分 布 。 这 两 者 之 间 的 关系 可 以 表示 如 下 : 


| 1/2 1/2 0 | | 1/3 | 
Prew = 0.8 1/2 0 0 Pola + 0.2 1/3 
0 1/2 1 1/3 


即 我 们 以 0.8 的 概率 将 M 与 pw 相 乘 ， 来 计算 漫步 者 的 新 位 置 ， 以 0. 2 的 概率 产生 一 个 新 的 
漫步 者 ， 并 将 它 随机 地 放 在 一 个 网 页 上 。 我 们 假设 最 初时 ps = (1/3, 1/3, 1/3], 反复 计算 
Prous FEU Pr RAF p,s。 我 们 会 得 到 如 下 序列 的 漫步 者 的 渐进 分 布 估计 值 : 
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0.333 | [0.333 ] [0.280 ] [0.259 7/33 

0.333 | , 0.200 | , |0.200 | , |0.179 | ,...,| 5/33 

0.333 | [0.467 | |0.520 | [0.563 21/33 
注意 ， 由 于 Microsoft PEREHI, CHAAR NBS BE. (LGW 0.2 的 概率 重新 
PPAR EA, MER BH iT iF OS Ball PE FB Bo tS 口 


这 个 思路 不 仅 对 疏 虫 陷阱 有 效 ， 对 死角 也 同样 有 效 。 由 于 死角 没有 链 出 ， 在 转移 抢 阵 中 所 对 
应 的 列 和 为 0， 这 种 情况 下 的 转移 矩阵 是 半 随 机 的 。 因 此 ， 在 任何 时 刻 ， 都 会 以 一 个 小 的 概率 存 
在 漫步 者 无 路 可 走 的 可 能 性 。 这 意味 着 漫步 者 位 于 每 个 页 面 的 概率 和 将 小 于 1。 不 过 概率 的 相对 
值 仍 然 可 以 作为 一 个 好 的 衡量 标准 ， 去 衡量 网 页 的 重要 程度 。 


漫步 者 的 远 距离 移动 
可 以 从 为 一 个 观点 来 理解 随机 漫步 的 过 程 : 没有 “新 "的 漫步 者 ， 而 是 原来 的 漫步 者 以 
1 -B 的 概率 随机 地 远 距 离 移动 (teleport) 到 一 个 网 页 。 为 了 使 这 一 观点 说 得 通 ， 当 漫步 者 
到 达 一 个 死角 ， 我 们 必须 假设 远 距 离 移 动 的 概率 是 100% 。 同 样 ， 在 每 次 迭代 时 ， 我 们 可 
以 按 比 例 提高 概率 ， 以 使 它们 的 和 为 1。 这 样 做 并 不 会 影响 概率 之 间 的 比值 ， 页面 的 相对 
PageRank 是 不 变 的 。 例 如 ， 在 例 12.7 +, PageRank 向 量 最 终 是 [35/81, 25/81, 21/81], 


例 12.7 我 们 重新 考虑 例 12. 5， 并 假设 8 =0.8。 和 迭代 公式 表示 如 下 : 


1/2 1/2 0 1/3 
Dnew 一 0.8 | 1/2 0 0 | Pota +0.2 | 1/3 | 
0 1/2 0 1/3 

















BOMB Pog = [1/3，1/3，1/3]， 我 们 将 得 到 漫步 者 的 近似 的 渐进 分 布 序列 ， 表 示 如 下 : 


[os | fazo | 区 | 区 35/165 
0.333 | , |0.200 | , }0.200 | , | 0.179 | penny | 25/165 | 
0.333 0.200 0.147 0.147 21/165 | 

注意 ， 每 一 个 概率 分 布 之 和 都 不 等 于 1， 并 且 在 任何 时 刻 ， 漫 步 者 会 以 稍 高 于 50% 的 概率 
“丢失 ”。 即 使 这 样 ，Yahoo! 和 Amazon 的 重要 程度 的 比率 与 例 12.6 是 一 样 的 。 这 是 说 得 通 的 ， 
因为 无 论 在 图 12-3 还 是 在 图 12-4 中 ， 都 没有 来 自 Microsoft 的 链接 影响 Yahoo! 或 Amazon 的 重要 
程度 。 口 


12.2.5 习题 


习题 12.2. 1 在 图 12-5 F, RRMA “TER”, 14 个 结 点 
的 PageRank, 


习题 12.2.2 在 图 12-5 中 ， 假 设 税率 为 : a)15%; b)25%, 
分 别 计算 4 个 结 点 的 PageRank, 
习题 12. 2. 3 ”对 于 下 面 的 Web 图 ， 重 做 习题 12. 2. 2。 O D) 


i Æ| 12-6 


i. 图 12-7 Æ 12-5 BARREME Web 图 
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图 12-6 存在 一 个 死角 的 Web 图 图 12-7 存在 一 个 爬虫 陷阱 的 Web 图 


! 习题 12. 2. 4 ”假设 我 们 想 用 9.2 节 所 介绍 的 map-reduce 框架 来 进行 PageRank 计算 的 一 个 迁 代 。 即 给 定 Web 
的 转移 矩阵 和 每 个 网 页 的 PageRank 当前 估计 值 ， 我 们 想 通 过 将 旧 的 估计 值 和 M 相 乘 ， 来 得 到 新 估计 值 。 
试想 我 们 可 以 将 数据 分 抉 ， 每 一 块 对 应 于 一 个 网 页 集合 ， 即 那些 网 页 的 PageRank 估计 值 以 及 同样 网 页 在 
转移 矩阵 中 所 对 应 的 列 。 试 设计 map 和 reduce 函数 来 实现 迭代 ， 以 使 整个 计算 可 被 分 给 任意 数量 的 处 理 
器 来 完成 。 


12.3 ”特定 主题 的 PageRank 


PageRank 的 计算 对 于 网 页 内 容 而 言 是 不 偏 不 倚 的 。 但 在 某 些 情况 下 ， 我们 会 在 计算 时 希望 
对 某 些 网 页 有 所 偏向 。 例 如 ， 如 果 我 们 希望 查询 结果 仅 涉 及 体育 ， 就 会 希望 有 关 体 育 的 网 页 比 
Web 中 有 类 似 链接 但 不 讨论 体育 的 网 页 有 更 高 的 PageRank。 或 者 我们 可 能 想 查 出 并 清除 作 商 
网 页 一 一 这 些 网 页 要 么 只 是 为 了 提高 其 他 某 些 网 页 的 PageRank ， 要 么 是 非法 提高 PageRank 的 受 
益 者 。 

在 这 一 节 ， 我们 将 探讨 如 何 通 过 修改 前 述 的 PageRank 计算 方法 ， 来 偏向 于 某 些 特定 类 型 的 
网 页 。 然 后 我 们 说 明 如 何 通 过 这 一 技术 来 解决 上 面 所 提 到 的 两 个 问题 。 


12.3.1 “ 远 距 离 移 动 ” 集 

在 12.2.4 节 中 ， 我 们 对 每 个 网 页 的 PageRank 估计 值 以 (1 -BREA ETR, 并 且 将 税 
均 分 给 所 有 的 网 页 。 同 样 ， 我 们 允许 随机 漫步 者 在 Web 图 上 ， 以 (1 -B) 的 概率 ,，“ 远 距离 移动 ” 
到 一 个 随机 选择 的 网 页 。 由 于 Web 中 死角 和 和 息 虫 陷阱 的 存在 ， 迫 使 我 们 在 计算 PageRank 时 采 
取 这 种 征 税 的 模式 。 但 我 们 没有 必要 将 税 均 分 (或 让 漫步 者 一 视 同 仁 地 选择 “ 远 距 离 移动 ”网 
页 )。 我 们 可 以 仪 将 税 或 漫步 者 有 选择 地 分 配 到 某 些 结 点 ， 我 们 将 这 些 结 点 集合 命名 为 远 距 离 
移动 集 (teleport set) 。 这 样 做 不 仅 能 够 提高 远 距离 移动 集中 结 点 的 PageRank ， 还 能 够 提高 这 些 
结 点 所 链接 到 的 网 页 的 PageRank， 这 些 网 页 既 包 括 这 些 结 点 直接 链接 到 的 ， 也 包括 链接 路 径 
长 度 为 2，3 等 等 的 那些 网 页 。 当 然 ， 随 着 链接 路 径 长 度 加 长 ， 对 PageRank 的 影响 也 逐渐 
减弱 。 

例 12.8 现在 我 们 重新 考虑 图 12-2 所 示 的 Web 图 ， 并 用 图 12-8 来 表示 。 假 设 我 们 只 对 零 
售 业 感 兴趣 ,我 们 让 远 距 离 移动 集 仅 包 含 Amazon。 同 时 假设 B =0.8， 即 税率 为 20% 。 如 果 用 变 
量 yY、a、m 分别 表 示 Yahoo!, Amazon, Microsoft 的 PageRank ， 那 么 我 们 需要 解 的 方程 式 可 表 


RAD: 
apele illek] 
a | =08]| 1/2 0 1 a | 十 0.21 1 
m 0 1/2 0 m 0 
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加 在 方程 式 末尾 的 向 量 (0，1，0) 表 示 税 被 均 分 给 了 远 距 离 移 动 集中 的 元 素 。 这 里 ， 远 距离 


移动 集 仅 包含 一 个 元 素 ， 因 此 元 素 ( Amazon) 在 远 距离 移 
动 集中 所 对 应 的 向 量 值 为 1， 远 距离 移动 集 之 外 的 元 素 i (_) 
所 对 应 的 向 量 值 为 0。 我 们 可 以 像 前 面 那样 ， 通 过 relax- ( Yaroo! ) 
ation 来 解 方程 组 。 由 于 这 个 例子 规模 很 小 ， 我 们 完全 可 


以 通过 高 斯 排除 法 得 到 精确 解 : y = 10/31, a = 15/31, 
m=6/31。 所 期 望 的 情况 出 现 了 : 由 于 Amazon 是 远 距离 
BARWICK, TH PageRank 得 到 了 提高 。 口 

在 一 个 主题 相关 的 PageRank 问题 中 ， 建 立方 程 组 的 ”， 
通用 规则 表示 如 下 。 假 设 远 距离 移动 集中 共有 个 元 素 ; ORED 
为 列 向 量 ,t 中 对 应 于 远 距 离 移 动 集中 的 成 员 的 向 量 元 
素 值 为 1ME， 其 他 情况 下 值 为 0; 令 1-B 为 税率 ，14 为 图 12-8 例 12.8 的 Web 图 
Web 的 转移 矩阵 。 于 是 我 们 必须 通过 松弛 发 来 解 下 列 弟 
HAR: 

Pnew = BMP ota + (1 — Bt 


例 12. 8 是 对 这 一 过 程 的 描述 ， 尽 管 我 们 将 p,。, 和 pos 都 置 成 了 Ly,，a，m] ， 并 计算 了 方程 组 
的 确切 解 ， 而 没有 采用 和 迭代 收 敏 的 方式 。 


12. 3.2 计算 主题 相关 的 PageRank 

假设 有 一 组 网 页 ， 我 们 已 确定 它们 与 特定 主题 相关 ， 例 如 主题 为 体育 。 我 们 以 这 些 网 页 作为 
远 距 离 移动 集 ， 其 作用 是 提高 它们 的 PageRank。 但 这 也 会 提高 远 距 离 移动 集中 网 页 所 链接 到 的 
网 页 的 PageRank， 以 及 被 链接 到 的 网 页 所 链接 到 的 网 页 的 PageRank， 以 此 类 推 。 即 使 这 些 网 页 
不 在 远 距 高 移动 集中 ， 我 们 也 希望 它们 是 和 体育 相关 的 。 例 如 ， 棱 球 联 队 的 主页 mb. com 可 能 会 
被 包含 在 体育 相关 的 远 距 离 移 动 集中 。 这 个 主页 上 有 许多 链接 指向 同一 网 站 的 其 他 网 页 ， 如 卖 
有 关 棒 球 产品 的 网 页 、 提 供 棒球 运动 统计 信息 的 网 页 等 等 ; 它 还 会 有 链接 指向 棒球 新 闻 网 页 。 从 
某 种 程度 上 而 言 ， 所 有 这 些 网 页 都 和 体育 相关 。 

假设 我 们 的 查询 关键 字 是 “ 击 球 手 ”( batter) 。 如 果 搜 索引 擎 使 用 通用 的 PageRank 方法 来 衡量 
网 页 的 重要 程度 ( 即 所 有 页 面 都 在 远 距 离 移动 集中 ) ， 查 询 结果 不 仅 会 包含 棒球 击 球 手 ， 也 会 包 
含 纸 托 蛋 糕 食谱 。 而 如 果 我 们 采用 特定 于 体育 的 PageRank 方法 ， 也 就 是 说 远 距 离 移 动 集中 仅 包 
含 体 育 网 页 ， 我 们 会 发 现 ， 在 排名 靠 前 的 网 页 中 ， 不 会 出 现 纸 托 蛋 糕 之 类 的 网 页 ， 而 只 会 出 现 关 
于 棒球 或 者 板 球 的 网 页 。 

一 个 体育 联 队 的 主页 对 一 个 有 关 体 育 的 远 距 离 移 动 集 而 言 ， 是 好 的 选择 ， 这 点 并 不 难 理 
解 。 但 我 们 还 想 确保 远 距 离 移 动 集中 有 关 体 育 的 网 页 具有 代表 性 ， 即 使 我 们 是 这 方面 的 专家 ， 
有 些 网 页 也 是 我 们 考虑 不 到 的 。 例 如 ， 假 设 居住 在 斯 普 林 菲 尔 德 的 家 长 们 想 搜索 到 有 关 ”“ 棒 
球 ” 利 “斯 普 林 菲 尔 德 " 关 键 字 的 网 页 ， 从 棒球 联 队 主 页 出 发 也 许 并 不 能 返回 有 关 斯 普 林 菲 尔 
德 小 职业 棒球 联盟 的 网 页 。 为 了 扩大 远 距 离 移 动 集 中 有 关 体 育 的 网 页 选择 面 ， 我 们 可 以 采取 
以 下 方法 : 

1. 使 用 有 指导 地 选择 过 的 网 页 。 例 如 ， 开 放 目 录 项 目 (www. dmoz. org) FA 16 个 主题 的 经 人 
工 选择 的 网 页 ， 里 面包 括 体 育 ， 还 有 其 下 的 许多 子 目 录 。 

2. 如 果 某 些 关键 词 在 一 个 主题 相关 的 小 型 网 页 集中 频繁 出 现 ， 就 要 引起 我 们 的 注意 了 。 例 
如 ， 如 果 主 题 是 体育 ， 我 们 期 望 “ball”、“player”、“goal "之 类 的 词 也 可 以 作为 选择 的 关键 词 。 然 
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后 ， 检 查 整 个 Web, 或 者 在 Web 上 选取 一 个 更 大 的 子 集 ， 从 而 识别 出 与 这 些 词 极其 相关 的 网 页 。 

为 了 有 效 地 实施 主题 相关 的 PageRank , 我 们 需要 解决 的 下 一 个 问题 是 确定 哪个 主题 是 用 户 
感 兴趣 的 。 这 里 存在 如 下 几 种 可 能 性 : 

a) 最 简单 的 方法 是 让 用 户 选 择 主题 。 

b) 如 果 像 上 述 方法 2 中 所 描述 的 ， 关 键 词 和 若干 不 同 的 主题 相关 ， 我 们 可 以 尝试 着 去 猜测 
用 户 想 要 的 主题 。 通 过 检查 我 们 认为 对 用 户 重 要 的 网 页 ， 计 算出 与 每 个 主题 相关 的 关键 词 在 这 
些 网 页 中 的 出 现 次 数 。 如 果 关 键 词 在 用 户 感 兴趣 的 网 页 中 出 现 次 数 很 多 ， 与 之 相关 的 主题 可 能 
就 是 用 户 想 要 的 。 为 了 辨别 哪些 网 页 是 用 户 感 兴趣 的 ， 我 们 可 以 采取 如 下 方法 : 

i. 查看 用 户 标 了 书签 的 那些 网 页 。 

i 查看 用 户 最 近 搜 索 过 的 网 页 。 


12.3.3 ”链接 作弊 

主题 相关 的 PageRank 的 另 一 个 应 用 是 打击 “链接 作弊 ” 。 许 多 搜索 引擎 都 采用 PageRank 算法 
作为 公式 的 一 部 分 来 衡量 网 页 重要 程度 ， 这 已 经 是 众所周知 的 事情 ， 因 此 ， 通 过 研发 机 制 来 提高 
网 页 的 PageRank 已 经 变 得 有 利 可 图 。 这 个 认识 催生 了 一 个 行业 : PEE, BRE A l 
造 了 包含 上 百 万 个 网 页 的 网 络 ， 唯 一 目的 便 是 提高 某 些 网 页 的 网 络 排名 。 





图 12-9 一 个 作 光 工厂 将 PageRank 集中 在 网 页 了 上 


图 12-9 描述 了 一 个 提高 目标 网 页 7 的 PageRank 的 简单 结构 。 假 设 以 1 - 6 为 税率 来 计算 Pag- 
eRank, ， 图 12-9 底部 那 一 行 所 示 的 网 页 从 图 外 部 得 到 的 总 PageRank 为 >， 这些 网 页 的 总 排名 为 x。 
并 令 网 页 了 的 PageRank 为 t+。 于 是 ， 在 这 个 范围 内 ， 有 上 = pz， 因为 了 除了 税收 之 外 ， 得 到 了 其 
他 网 页 的 所 有 PageRank, WA x =r+ 应 ， 因 为 图 中 除了 以 外 的 其 他 网 页 从 图 所 示 的 网 络 外 部 得 到 
的 总 PageRank 为 >， 从 了 那儿 得 到 的 PageRank 为 Bt。 解 上 面 两 个 方程 ， 得到: 的 表达 式 : 1 = 
BrA(1 - 户 ) 。 例 如 ， 假 设 B =0.85， 我们 将 以 比例 0.85/(1 - (0.85)*) = 3. 06 大 大 提高 了 外 部 的 
PageRank。 而 且 ， 我 们 还 将 这 些 PageRank 全 部 集中 到 了 单一 网 页 了 上 。 

当然 ， 如 果 r =0, TARA PageRank 的 。 事 实 上 ，7 与 Web 上 其 他 网 页 的 联系 将 会 被 断 开 ， 
对 搜索 引擎 而 言 是 不 可 见 的 。 不 幸 的 是 ， 对 于 作弊 工厂 而 言 ， 让 > 得 到 一 个 合理 的 值 并 不 是 太 困 
难 。 例 如 ， 它 们 可 以 在 能 被 公众 访问 到 的 博客 上 使 用 类 似 于 “我 赞同 你 的 言论 。 具 体 参 见 
x123456. mySpamFarm. com” 之 类 的 消息 ， 作 为 链接 ， 指 向 作弊 工 厂 。 此 外 ， 如 果 图 12-9 底部 那 一 
行 的 网 页 数 很 多 ， 所 征 税 也 被 均 分 到 这 些 网 页 上 ，r 还 会 将 分 到 这 些 网 页 上 的 税 计 算 在 内 。 这 就 
解释 了 作弊 工厂 为 什么 在 它们 的 结构 中 采用 多 个 网 页 ， 而 不 是 -- 个 或 两 个 网 页 。 


12.3.4 主题 相关 的 PageRank Angee (Ewe 

搜索 引擎 要 能 够 探测 到 Web 上 那些 试图 制造 作弊 链接 的 网 页 ， 一 个 有 用 的 工具 是 计算 网 页 
的 TrustRank。 尽 管 TmstRank 与 主题 相关 的 PageRank 的 原始 定义 不 同 ， 我 们 仍然 可 以 把 Trus- 
tRank 看 作 主 题 相 关 的 PageRank ， 其 中 远 距 离 移动 集 仅 包含 那些 “可 信任 ”的 网 页 。 下 面 是 选择 
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可 信任 网 页 集 的 两 个 方法 : 

1. 人 工 检查 网 页 ， 并 评估 它们 在 Web 中 的 作用 。 这 个 过 程 很 难 被 自动 化 ， 原 因 是 作弊 者 会 
复制 完全 合法 的 网 页 上 的 内 容 ， 并 将 这 些 内 容 和 作弊 链接 进行 组 合 ， 形 成 作弊 工厂 。 

2. 在 初始 阶段 ， 让 远 距 离 移 动 集 尽 可 能 地 不 包含 作 浆 网 页 。 例 如 ， 大 家 一 致 认为 可 以 选择 
那些 大 学 主页 作为 分 布 式 的 可 信任 网 页 集 ， 这 是 一 个 很 好 的 选择 。 实 际 上 ， 当 前 的 搜索 引擎 经 常 
性 地 采用 了 类 似 的 远 距 离 移动 集 来 常规 地 计算 PageRank, 

因为 可 信任 网 页 很 少 会 链接 到 作 兹 网 页 上 ， 以 上 两 种 方法 都 会 降低 作 商 网 页 的 PageRank, 
由 于 像 正常 的 PageRank 那样 ，TrustRank 也 是 通过 使 用 一 个 大 于 零 的 税率 1 -B 得 到 的 ， 因 此 当 
我 们 从 可 信任 网 页 走 得 越 远 ， 由 它 所 授予 的 网 页 可 信和 度 会 越 弱 。 当 搜索 引擎 回答 一 个 查询 时 ， 可 
以 使 用 网 页 的 TrustRank 来 代替 PageRank。 这 样 做 会 减少 将 作弊 网 页 返回 给 查询 者 的 可 能 性 。 

另 一 种 方法 是 通过 计算 网 页 的 作 养 率 来 检测 网 页 中 是 否 存 在 作弊 链接 ， 方 法 如 下 。 

a) 计算 正常 的 PageRank， 换 句 话 说 ， 就 是 让 远 距离 移动 集 包 含 所 有 的 网 页 。 

b) 使 用 合理 规模 的 可 信任 网 页 集合 ,来 计算 所 有 网 页 的 TrustRank。 

c) 对 每 一 个 网 页 ， 计 算 PageRank 和 TrustRank 之 差 ， 并 记 为 negative TrustRank 。 

d) 用 negative TrustRank 与 PageRank 的 比值 作为 网 页 的 作 贞 率 ， 这 个 作弊 率 用 于 衡量 一 个 网 
页 的 PageRank A 22> ePID A ERE LS o 

我 们 可 以 通过 使 用 TrustRank 有 所 侧重 地 计算 PageRank, SA THE Ye Be Ee Ro BY Oe EE ER; 
还 可 以 通过 计算 作 台 率 来 查找 作弊 链接 的 来 源 。 如 果 一 个 网 站 中 有 许多 网 页 都 有 很 高 的 作弊 率 ， 
这 个 网 站 就 有 可 能 是 作弊 者 的 ， 搜 索引 擎 就 可 以 将 来 自 该 网 站 的 所 有 网 页 从 数据 库 中 删除 。 


12.3.5 习题 

习题 12. 3. 1 假设 税率 是 25% ， 在 如 下 a、b 情况 下 ， 分 别 计 算 图 12-5 所 示 的 主题 相关 的 PageRank : 
a) WPA BREA, Cjo 
b) 远 距 离 移动 集 是 1B, Dt. 

习题 12. 3. 2 ”对 于 图 12-6， 重 做 习题 12. 3. 1 。 

习题 12. 3. 3 ”对 于 图 12-7， 重 做 习题 12. 3. 1 。 

1 习题 12. 3. 4 假设 税率 固定 ， 对 于 一 个 图 G， 首 先 让 远 距 离 移 动 集 仅 包 含 结 点 a， 我 们 来 计算 图 6 的 主题 相 
关 的 PageRank; 再 让 远 距 离 移动 集 仅 包含 5，， 重 复 如 上 计算 。 证 明 两 次 所 得 PageRank 的 平均 值 与 远 距 离 
AIREA ja, b) 时 的 PageRank 结果 相等 。 

! 习题 12. 3.5 如 果 两 个 远 距离 移动 集 5, AS, 不 相交 ， 并 且 元 素 个 数 也 有 可 能 不 同 ， 怎 样 将 习题 12.3.4 的 
计算 一 般 化 呢 ? 具体 来 讲 ， 假 设 首先 我 们 分 别 使 用 S 和 $ 作为 远 距 离 移动 集 计算 出 了 PageRank, WRH 
S US, 作为 远 距 离 移动 集 ， 我 们 怎么 用 上 述 结果 来 计算 相应 的 PageRank 呢 ? 


12.4 数据 流 


现在 我 们 将 传统 DBMS 中 的 思想 进行 扩展 ， 来 处 理 数据 流 的 问题 。 互 联网 上 机 器 之 间 的 交互 
带 来 了 一 类 新 的 应 用 ， 这 类 应 用 给 传统 的 数据 库 系统 模型 带 来 了 挑战 。 回 想 一 下 ， 一 个 典型 的 数 
据 库 系统 主要 作为 数据 的 贮藏 库 。 数 据 的 输入 要 人 么 来 自 查询 语言 的 一 部 分 ， 要 么 来 自 特殊 用 途 
的 数据 加 载 ， 并 且 由 DBMS 来 控制 输入 频率 。 

但 在 一 些 应 用 中 ， 数 据 会 以 DBMS 无 法 控制 的 频率 到 达 。 例 如 ，Yahoo! 想 记录 任何 用 户 的 
每 一 次 “点 击 ”( 每 一 次 网 页 请 求 )， 不 管用 户 来 自 哪 里 。 那 些 请 求 所 对 应 的 URL 序列 会 以 很 快 的 
速度 到 达 ， 这 个 速度 仅 决定 于 Yahoo! 用 户 。 


12.4.1 数据 流 管理 系统 
如 果 想 在 数据 流 上 做 查询 ， 我 们 就 需要 用 到 一 些 新 机 制 。 即 使 我 们 能 够 存储 这 些 高 速 到 达 
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的 数据 流 ， 我 们 也 无 法 使 用 像 SQL 那样 的 查询 语言 进行 实时 查询 。 我 们 甚至 连 一 些 查询 的 含义 
都 不 明确 ， 例 如 ， 由 于 我 们 根本 得 不 到 完整 的 数据 流 ， 如 何 对 两 个 数据 流 进行 连接 运算 呢 ? 一 个 
数据 流 管理 系统 data - stream - management system (DSMS) 的 粗略 结构 如 图 12-10 所 示 。 


即席 查询 结果 


...9,4,0, 6,4,2,7 : 常 驻 
常 驻 查询 
...W,t,d,au,zr 流 管理 系统 查询 的 结果 
...0,1,1,0,0,0,1 
输入 流 





图 12-10 数据 流 管理 系统 


图 12-10 所 示 的 系统 接受 数据 流 的 输入 ， 也 接受 数据 流 的 查询 。 对 数据 流 的 查询 可 分 为 以 下 
两 种 : 

1. 一 般 的 即席 (ad - hoc) 查询。 

2. 由 系统 进行 存储 并 一 直 在 输入 的 数据 流 上 所 做 的 常 驻 查询 (standing query) 。 

例 12.9 无 论 是 即席 的 还 是 常 驻 的 ，DSMS 上 的 查询 必须 被 表示 为 使 用 数据 流 中 有 限 的 部 分 
就 可 以 完成 的 形式 。 例 如 ， 假 定 我 们 正在 接受 来 自 遍 布 于 世界 各 地 的 传感器 所 返回 的 辐射 能 级 
数据 流 。DSMS 虽然 不 能 存储 和 查询 在 时 间 上 任意 久远 的 数据 流 ， 却 可 以 对 应 于 每 个 数据 流 存 储 
一 个 滑动 窗口 ， 可 以 利用 图 12-10 中 所 示 的 “工作 存储 区 ”， 将 过 去 24h 内 来 自 于 所 有 传感器 的 全 
部 数据 存储 到 磁盘 。 较 早 到 达 的 数据 可 以 被 丢弃 ， 可 以 被 汇总 (例如 只 保留 日 平均 值 ) ， 也 可 以 
被 整个 地 复制 到 永久 性 存储 设备 上 (存档 ) 。 

一 个 即席 查询 可 能 是 查询 过 去 1h 内 某 地 的 平均 辐射 能 级 。 由 于 我 们 的 工作 存储 区 存放 了 过 
去 24h 内 全 部 数据 流 的 数据 ， 我 们 就 可 以 回答 查询 。 而 一 个 常 驻 查询 可 能 用 于 监视 来 自任 何 数据 
流 的 数据 是 否 超过 一 个 界限 。 在 每 一 个 数据 流 的 任何 数据 元 素 到 达 系 统 时 ， 将 它 与 所 设 定 的 阔 
值 进行 比较 ， 如 果 超 过 阔 值 ， 将 输出 相应 的 信息 。 这 种 类 型 的 查询 可 以 通过 数据 流 自 身 来 回答 ， 
尽管 我 们 也 可 能 需要 检查 工作 存储 区 ， 例 如 如 果 我 们 要 求 监视 过 去 5min 内 哪些 数据 流 的 平均 值 
超过 了 阐 值 ， 如 果 超 过 了 就 发 警报 。 口 


12.4.2 数据 流 应 用 

在 介绍 数据 流 管理 系统 的 工作 机 制 之 前 ， 我 们 先 来 看 看 哪些 应 用 涉及 一 个 或 一 组 数据 流 : 

L 点 击 流 。 我 们 前 面 提 到 ， 一 个 典型 的 数据 流 源 是 用 户 在 一 个 大 的 Web 站 点 上 的 点 击 流 。 
出 于 一 些 原因 ， 站 点 想 要 分 析 在 它 之 上 的 点 击 情况 ， 如 一 个 链接 上 的 点 击 增多 ， 可 能 指示 这 个 链 
接 断 掉 了 ， 或 者 表明 这 个 链接 引起 了 许多 人 的 兴趣 。 一 个 搜索 引擎 可 能 想 分 析 指 向 广告 的 链接 
的 点 击 情况 ， 来 看 哪些 广告 最 引 人 注 目 。 

2. 数据 包 流 。 我 们 也 许 想 分 析 经 过 一 个 网 关 的 DP 包 的 源 和 目的 主机 的 行为 。 如 果 流 向 一 个 
目的 主机 的 正 包 异常 地 增多 ， 可 能 暗示 会 有 拒绝 服务 攻击 (denial-of-service) 。 我 们 可 以 通过 检查 
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目的 主机 最 近 的 历史 ， 来 预测 网 络 阻塞 ， 并 相应 地 重新 调整 P 包 的 路 由 。 

3. 传感器 数据 。 前 面 我 们 也 给 出 了 一 个 关于 辐射 传感器 网 络 的 假想 例子 。 许 多 情况 下 ， 我 
们 需要 读 取 传 感 器 的 输出 并 进行 整体 分 析 ， 例 如 ， 以 分 秘 速 度 记录 海洋 水 平面 高 度 的 海啸 预测 
传感器 ， 或 全 球 各 地 收集 地 震 信 号 的 地 震 检 波 器 。 那 些 安 装 了 安全 监控 相机 网 络 的 城市 可 以 提 
取 并 分 析 来 自 这 些 相机 的 录像 ， 以 预测 袭击 。 

4. 人 造 卫 星 数据 。 人 造 卫星 每 天 传 回 大 得 惊人 的 数据 流 ， 常 以 PB 级 计 ， 由 于 科学 家 不 愿意 
丢掉 娜 怕 一 点 这 样 的 数据 ， 这 些 数据 常 以 未 加 工 的 形式 存储 在 数据 存储 系统 中 ， 人 们 通常 会 半 
开玩笑 地 称 这 些 存 储 系统 为 “只 能 写 的 存储 ”。 在 数据 流 到 达 时 那些 有 用 的 数据 会 被 滤 出 并 存在 
易于 访问 的 存储 位 置 ， 或 分 发 给 基于 某 类 数据 做 常 驻 查询 的 科学 家 。 

5. 金融 数据 。 在 股票 交易 、 商 品 贸易 和 其 他 种 类 的 财政 贸易 中 ， 产 生 了 元 组 数据 流 ， 一 个 
元 组 代表 一 次 金融 事务 ， 这 些 数据 流 交 由 特定 软件 来 分 析 ， 以 发 现 触发 交易 者 进行 交易 的 事务 
或 模式 。 由 于 股票 交易 瞬间 就 完成 ， 那 些 能 得 到 最 多 数据 并 以 最 快速 度 进行 处 理 的 交易 者 最 容 
易 成 功 。 


12.4.3 数据 流 数 据 模型 
现在 我 们 给 出 一 个 数据 模型 ， 以 便于 分 析 基 于 数据 流 的 算法 。 首 先 ， 我 们 假设 数据 流 具 有 如 
下 特征 : 
。 每 一 个 数据 流 包含 一 个 元 组 序列 。 正 如 关系 数据 库 中 的 元 组 那样 ， 这 里 的 元 组 具有 固定 
的 关系 模式 ( 即 属性 列表 ) 。 和 关系 数据 库 不 同 的 是 ， 数 据 流 中 的 元 组 序列 可 能 是 无 限 的 。 
。 每 个 元 组 都 有 一 个 到 达 时 间 ， 这 时 数据 流 管 理 系统 能 够 对 它 进 行 处 理 了 。DSMS 对 它 做 出 
处 理 ， 如 将 它 存 储 在 工作 存储 区 或 永久 存储 区 ， 或 将 元 组 从 存储 区 删 掉 。 在 存储 元 组 之 
前 ， 可 以 做 些 简 单 的 处 理 。 
对 于 任何 数据 流 ， 我 们 可 定义 一 个 滑动 窗口 (或 简称 为 窗口 ) ， 即 最 近 到 达 的 元 组 集合 。 
口 可 以 是 基于 时 间 的 (time-based) ， 如 给 定 一 个 常量 7， 窗 口中 仅 包含 到 达 时 间 介 于 当前 时 间 上 和 
1-7 范 围 内 的 元 组 ; 也 可 以 是 基于 元 组 的 (tuple-based) ， 如 给 定 一 个 固定 值 >， 窗 口中 仅 包含 最 
近 到 达 的 n 个 元 组 。 
我 们 用 符号 S[ 下 ] 来 描述 数据 流 $ 上 的 窗口 ， 其 中 ， 歼 描述 了 窗口 的 种 类 ， 可 以 是 ， 
1. Raws n， 即 仅 包 含 最 近 到 达 的 n 个 元 组 。 
2. Range 7， 即 仪 包 含 过 去 7 时 间 范 围 内 的 元 组 。 
例 12. 10 假设 Sensors( sensID，temp，time) 表 示 一 个 数据 流 ， 其 中 的 每 一 个 元 组 表示 特定 
时 间 time 下 所 读 取 的 来 自传 感 器 sensID 的 温度 值 temp。 我 们 通常 会 让 传感器 各 自 返 回 数 据 流 ， 
但 如 果 在 数据 流 管理 系统 外 部 将 数据 积聚 ， 也 可 以 将 这 些 数 据 流 合并 成 一 个 。 表 达 式 Sensors 
[Rows 1000 ] 描 述 了 一 个 窗口 ， 这 个 窗口 中 包含 了 来 自 数 据 流 Sensors 的 最 近 1000 个 元 组 。 表 
达 式 


Sensors [Range 10 Seconds] 
描述 了 一 个 窗口 ， 这 个 窗口 包含 了 同一 个 数据 流下 过 去 10s 内 到 达 的 全 部 元 组 。 O 


12.4.4 数据 流转 换 为 关系 

我 们 可 以 利用 窗口 将 数据 流转 换 为 关系 ， 也 就 是 说 ， 例 12. 10 中 所 描述 的 窗口 在 任何 时 候 都 
可 以 看 作 一 个 关系 。 关 系 中 的 内 容 迅速 地 变化 着 。 例 如 ， 给 定 表达 式 Sensors[ Rows 1000] ， 在 每 
一 个 来 自 Sensors 的 新 元 组 到 达 时 ， 我 们 会 将 它 插 和 人 关系 ， 而 将 最 老 的 元 组 删 去 。 对 于 表达 式 
Sensors[ Range 10 Seconds] ， 当 元 组 到 达 时 ， 我 们 将 它 插入 关系 ， 而 到 达 时 间 超 过 10s 时 ， 我 们 又 
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将 它 从 关系 中 删除 。 . 

可 以 针对 数据 流 将 SQL 语句 进行 扩展 ， 像 处 理 关系 那样 来 处 理 窗 口 表达 式 。 下 面 的 例子 描 
述 了 一 个 扩展 后 的 SQL 语句 。 

例 12. 11 假设 对 于 每 个 传感器 ， 我 们 想 找 出 最 近 1h 内 到 达 DSMS 的 最 高 温度 。 这 里 我 们 
需 采 用 基于 时 间 的 窗口 ， 并 像 查询 传统 关系 那样 查询 它 。 查 询 表示 如 下 : 

SELECT sensID, MAX(temp) 

FROM Sensors [Range 1 Hour] 

GROUP BY sensID; 

这 个 查询 可 以 被 看 作 在 窗口 上 的 即席 查询 ， 即 仅 在 查询 发 起 时 执行 一 次 。 当 然 ，DSMS 必须 
让 查询 处 理 器 访问 到 数据 流 Sensors 上 长 度 至 少 为 1h 的 窗口 ”。 这 个 查询 也 可 以 是 常 驻 查询 ， 这 
就 需要 像 维护 随时 间 不 断 变化 的 物化 视图 那样 来 维护 当前 的 结果 关系 。 在 12.4.5 节 ， 我 们 将 讨 
论 另 一 种 将 这 个 查询 作为 常 驻 查询 的 结果 表示 方法 。 口 

窗口 关系 可 以 与 其 他 窗口 关系 相 结合 ， 或 者 和 "常规 意义 上 的 ”关系 ( 即 关系 不 是 来 自 数 据 
Vit) 相 结合 。 下 面 我 们 用 一 个 例子 来 表示 这 种 可 能 性 。 

例 12. 12 假设 我 们 的 DSMS 有 一 个 输入 数据 流 Sensors, E DSMS 的 工作 存储 区 维护 着 一 个 
常规 的 关系 


Calibrate(sensID, mult, add) 


这 个 关系 中 给 出 了 乘法 因子 mult 和 加 法 因子 add， 用 于 校正 来 自 每 个 传感器 的 数据 。 下 面 的 
查询 
SELECT MAX(mult*temp + add) 


FROM Sensors [Range 1 Hour], Calibrate 
WHERE Sensors.sensID = Calibrate.sensID; 


是 在 所 有 传感器 范围 内 找 出 过 去 lh 内 校准 后 的 最 高 温度 。 这 里 我 们 将 来 自 Sensors 的 窗口 关系 和 
一 个 常规 关系 Calibrate 进行 了 连接 运算 。 

我 们 也 可 以 在 窗口 关系 之 间 执 行 连接 运算 。 SELECT s.sensID, s.temp, s.time 
下 面 的 例子 是 通过 子 查询 实现 的 一 个 自 连 接 ， WHERE NOT cetera = 1 Hour] s 
SQL 中 的 所 有 连接 方法 在 这 里 都 可 以 使 用 。 SELECT * FROM Sensors [Range 1 Hour] 

例 12. 13 假设 我 们 想 找 出 每 一 个 传感器 在 ee coup > 2teep on AND ( 
过 去 1h 内 所 返回 的 最 高 温度 (与 例 12.11 中 一 (temp = s.temp AND time > s.time) 
样 ) ， 同 时 我 们 还 希望 在 结果 元 组 中 包括 达到 最 | ) ; ) 
高 温度 值 的 最 近 的 那个 时 间 。 图 12-11 给 出 了 使 图 12-11 包括 时 间 的 传感器 最 高 温度 读数 
用 窗口 关系 写 这 个 查询 的 一 种 方法 。 

这 个 查询 的 含义 是 ， 对 于 一 个 元 组 *， 子 查询 在 对 应 于 同一 个 传感器 的 窗口 关系 Sensors 
[Range 1 Hour] 中 查找 是 否 存在 另外 一 个 元 组 ， 这 个 元 组 要 么 有 上 比 s 还 高 的 温度 ， 要 么 虽然 有 相 


同 温度 但 时 间 比 s 晚 ， 如 果 没 有 满足 这 样 条 件 的 元 组 ，s 将 作为 结果 的 一 部 分 。 口 


12. 4.5 关系 转换 为 数据 流 
当 我 们 做 类 似 于 例 12.11 的 常 驻 查询 时 ， 所 得 的 关系 会 频繁 地 被 更 新 。 如 果 像 维护 物化 视图 
那样 维护 这 些 关 系 ， 会 导致 大 量 的 插 人 和 删除 操作 ， 并 且 不 会 有 人 对 这 些 插 和 信和 删除 感 兴趣 。 另 














O 严格 地 说 ，DSMS 只 需要 保留 足以 回答 查询 的 信息 即 可 。 例 如 ， 如 果 DSMS 丢掉 了 元 组 ， 并 且 所 丢掉 的 元 组 对 应 
的 传感器 又 有 更 高 的 温度 到 达 DSMS, DSMS 仍然 可 以 随时 回答 查询 。 
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一 个 可 行 办 法 是 将 查询 所 得 的 关系 转换 为 数据 流 ， 从 而 可 以 使 我 们 像 对 待 其 他 数据 流 那 样 进行 
操作 。 例 如 ， 如 果菜 个 时 刻 我 们 对 关系 的 值 感 兴趣 ， 可 以 做 即席 查询 来 得 到 查询 结果 。 

假设 R 是 一 个 关系 ， 我 们 用 Istream(R) 来 表示 插入 到 中 的 元 组 所 组 成 的 数据 流 。 当 元 组 被 
插入 到 关系 时 ， 也 加 和 人 到 这 个 数据 流 中 。 类 似 地 ， 用 Dstream(R) 来 表示 从 R 中 被 删除 的 元 组 所 
组 成 的 数据 流 ， 当 元 组 从 关系 中 删除 时 ， 就 加 入 到 这 一 数据 流 中 。 对 关系 中 元 组 的 更 新 可 以 通过 
同时 对 元 组 进行 插入 和 删除 操作 来 完成 。 

例 12. 14 令 尺 是 例 12. 13 中 的 查询 所 得 的 关系 ， 也 就 是 说 ， 关 系 尺 包含 了 过 去 1h 内 每 个 
传感器 发 回 的 最 高 温度 ， 也 包含 了 最 高 温度 所 对 应 的 最 近 时 间 。 每 当 - -个 新 元 组 插入 到 R i, 
也 有 对 应 的 元 组 加 入 到 数据 流 Ustream (R) 中 。 有 两 个 事件 可 以 触发 R 中 的 插入 操作 : 

1. 来 自 数据 流 Sensors 的 元 组 ， 元 组 中 的 温度 至 少 入 中 所 记录 的 对 应 于 同一 个 传感器 ID 
的 温度 一 样 高 ， 这 时 该 元 组 被 插入 关系 中 ， 同 时 也 被 插入 到 IStream(R) 中 。 

2. 关系 中 对 应 于 传感器 ; 的 当前 最 高 温度 是 1h 前 插入 的 ， 并 且 在 过 去 1h 内 数据 流 Sensors 
中 至 少 有 一 个 元 组 来 自传 感 器 i。 这 种 情况 下 ,插入 到 R 和 Istream(R) 中 的 新 元 组 是 Sensors 中 在 
过 去 Uh 内 来 自传 感 器 ; 的 元 组 ， 并 且 在 过 去 1h 内 没有 同样 来 自 的 元 组 满足 以 下 两 个 条 件 : 

a) 温度 更 高 。 

b) 温度 相同 但 时 间 更 近 。 

这 两 个 事件 也 会 为 数据 流 Dstream( R) 产生 相应 的 元 组 。 对 于 事件 1， 如 果 对 应 于 同一 个 传感器 
有 任何 其 他 元 组 存在 于 R 中 ， 则 该 元 组 将 从 R 中 删除 ， 并 加 入 到 数据 流 Dstream(R) ;对 于 事件 2， 
关系 让 中 对 应 于 传感器 i 的 元 组 如 果 超 过 lh， 将 从 R 中 删除 ， 并 加 入 到 数据 流 Dstream(R)。 O 

如 果 对 于 图 12-11 所 示 的 查询 所 构造 的 关系 ， 我 们 计算 Istream 和 Dstream， 我 们 就 没有 必要 
像 维护 物化 视图 那样 维护 关系 了 。 我 们 可 以 通过 查询 数据 流 Istream 和 Dstream 来 完成 对 关系 的 
查询 。 

例 12. 15 假设 对 于 图 12-11， 我 们 构造 了 对 应 的 Istream I 和 Dstream D AURREA R, R 
们 就 可 以 在 需要 时 对 这 两 个 数据 流 做 即席 查询 。 例 如 ， 假 设 我 们 想 找 出 在 过 去 1h 之 内 对 应 于 伟 
感 器 100 的 最 高 温度 ， 它 就 是 了 中 来 自传 感 器 100 的 某 个 元 组 所 对 应 的 温度 ， 并 满足 以 下 条 件 : 

1. 时 间 是 过 去 1h 内 。 

2. BAM R 中 删除 ( 即 过 去 1h 内 没有 出 现在 刀 中 ) 。 

这 个 查询 可 以 表示 为 图 12-12 所 示 的 那样 ， 其 中 的 关键 字 Now 表示 当前 时 间 。 

需要 注意 的 是 ， 在 对 7 的 查询 中 ， 我 们 既 要 看 元 组 是 否 是 [SEEEET s FRONT Rags TO 
th 内 加 入 1， 还 要 看 它 的 时 间 蕉 是 否 也 是 1h 之 内 。 为 了 理解 | WHERE sensID = 100 AND 
这 两 个 条 件 的 区 别 ， 我们 假设 有 一 个 元 组 :来 自传 感 器 100, pe Do t Hour]) 
由 于 过 去 30min 前 成 为 了 最 高 温度 ， 而 被 加 入 到 I 中; 但 这 个 | SELECT + FROM D [Range 1 Hour 
温度 本 身 还 对 应 着 一 个 80min 之 前 的 时 间 蕉 。 这 种 情况 产生 的 
原因 是 90min 前 对 应 于 传感器 100 记录 了 一 个 较 i 更 高 的 温 图 12-12 查询 steam 和 Dstream 
度 ,经 过 1h 后 ( 即 30min 前 ) ，: 才 成 为 对 应 于 传感器 100 的 最 


高 温度 。 口 


12. 4.6 习题 

习题 12. 4. 1 ”使 用 例 12. 11 中 的 数据 流 Sensors， 写 出 如 下 查询 : 
a) 找 出 过 去 1s 内 至 少 传 回 两 次 数据 的 传感器 。 
b) 在 最 近 到 达 的 5000 个 元 组 中 找 出 最 老 (时 间 最 小 ) 的 那个 。 
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1c) 找 出 在 过 去 1h 内 传 回 的 数据 次 数 多 于 在 这 th 之 前 的 那 lh 里 所 传 回 数据 次 数 的 传感器 。 

习题 12. 4. 2 ”根据 这 一 节 所 示 的 传感器 数据 例子 ， 假 设 下 面 的 ( 温度， 时间) 元 组 是 由 传感器 100 产生 的 ， 
产生 的 同时 就 发 送 到 了 DSMS。 这 些 元 组 分 别 是 : (20, 0), (18, 40), (16, 60), (17, 110), ， 时 间 单 
位 是 分 钟 。 如 果 尺 是 图 12-11 所 示 的 查询 ， 则 Istream(R) 和 Dstream(R) 中 各 包含 哪些 元 组 ? 并 且 每 一 个 元 
组 是 在 什么 时 间 包 含 进来 ? 

! 习题 12. 4. 3 ”假设 我 们 有 一 个 数据 流 ， 由 若干 购物 篮 条 目 组 成 ， 就 像 11. 1. 1 节 中 所 介绍 的 市 场 - 购物 篮 模 
型 那样 。 由 于 我 们 把 数据 流 中 的 元 素 看 作 元 组 ， 一 个 购物 篮 的 内 容 就 可 以 表示 为 一 连 串 的 元 组 ， 对 应 的 
数据 模式 用 Baskets( basket, item) 表示 。 写 出 如 下 查询 : 

a) 找 出 过 去 1h 内 至 少 在 5% 的 购物 复出 现 的 那些 元 组 : 。 
b) 找 出 过 去 30mim 内 元 组 所 出 现 的 购物 复数 目 至 少 3 倍 于 更 早 30min 所 出 现 的 购物 复数 目的 那些 条 目 对 。 
c) 找 出 过 去 1h 内 出 现 次 数 最 多 的 条 目 对 。 


12.5 数据 流 挖 气 


在 处 理 数 据 流 时 ， 有 许多 问题 会 变 得 非常 困难 ， 尽 管 类 似 的 问题 放 在 关系 中 很 容易 。 在 这 一 
节 ， 我 们 主要 介绍 如 何 更 简洁 地 表示 窗口 中 的 内 容 ， 而 不 用 一 一 列 出 窗口 中 的 每 一 个 元 组 。 当 
然 ， 我 们 不 能 够 保证 回答 出 关于 窗口 的 任何 可 能 的 查询 ， 但 如 果 事 先 明确 一 下 我 们 要 进行 何 种 
查询 ， 我 们 也 许可 以 对 窗口 进行 压缩 ， 并 回答 查询 。 另 一 种 可 能 是 我 们 不 能 压缩 窗口 ， 也 不 能 准 
确 地 回答 那些 查询 ,但 我 们 可 以 确保 把 误差 限定 在 一 个 固定 的 范围 内 。 

我 们 将 考虑 这 种 类 型 的 两 个 基本 问题 。 首 先 ， 来 考虑 二 进 制 数 据 流 (0 和 1 组 成 的 数据 流 ) ， 
看 能 否 回 答 窗口 内 任何 时 间 段 里 1 所 出 现 的 次 数 。 当 然 ， 如 果 我 们 把 这 些 二 进 制 序列 和 它们 的 时 
间 惟 全 部 存 起 来 ， 可 以 精确 地 回答 查询 。 但 我 们 可 以 通过 很 大 程度 上 压缩 数据 ， 并 在 限定 的 误差 
范围 内 来 回答 这 类 查询 。 第 二 个 问题 是 统计 滑动 窗口 中 有 多 少 个 不 同 的 值 。 如 果 不 在 窗口 中 完 
整地 保存 这 些 数 据 ， 这 类 查询 也 不 能 准确 回答 。 然 而 ， 我 们 将 会 看 到 ， 使 用 比 窗口 大 小 小 得 多 的 
空间 ， 仍 然 有 可 能 得 到 较 好 的 估计 值 。 


12.5.1 动机 

假设 我 们 希望 有 一 个 数据 流 ， 它 的 窗口 能 包含 10 亿 个 整数 。 这 么 大 规模 的 窗口 可 以 放 在 4G 
的 内 存 里 ， 也 可 以 放 在 磁盘 上 。 如 果 我 们 仅 对 这 一 个 数据 流 中 最 近 产 生 的 数据 感 兴趣 ，10 亿 个 
元 组 就 足够 了 ， 但 如 果 有 100 万 个 这 样 的 数据 流 呢 ? 

例如 ， 我 们 想 将 来 自 遍 布 整个 城市 的 100 万 个 传感器 的 数据 进行 集成 ， 或 者 针对 一 个 市 场 购 
物 侯 的 数据 流 ， 我 们 想 计算 出 其 中 任何 时 间 范 围 内 所 有 购物 篮 中 所 有 项 集 出 现 的 频率 。 在 这 种 
情况 下 ， 我 们 需要 对 每 个 项 集 建立 一 个 窗口 ， 并 用 二 进 制 位 来 表示 这 些 项 集 在 每 个 购物 篮 中 是 
否 出 现 。 

在 上 述 情况 下 ， 将 没有 足够 的 磁盘 空间 来 存储 所 有 窗口 。 另 外 ， 为 了 得 到 有 效 的 响应 ， 我 们 
希望 把 它们 全 部 存在 主 存 中 。 但 对 于 几 个 长 度 多 达 10 亿 的 窗口 ,或 上 千 个 长 度 为 100 万 的 窗口 ， 
就 没有 足够 大 的 内 存 来 应 对 了 。 因 此 ， 我 们 就 要 压缩 窗口 中 的 数据 。 但 如 下 面 的 例子 所 描述 的 那 
样 ， 如 果 压 缩 了 窗口 ， 即 使 对 于 一 些 很 简单 的 查询 也 无 法 回答 。 

例 12. 16 ”假设 我 们 有 一 个 滑动 窗口 ， 存 储 了 整数 数据 流 元 素 ， 并 且 有 一 个 常 驻 查询 ， 用 于 
时 刻 览 视窗 口中 的 整数 之 和 是 否 超 过 一 个 给 定 的 阐 值 :。 通 过 维护 窗口 中 的 整数 之 和 就 可 以 回答 
这 个 查询 ， 当 一 个 整数 到 来 时 ， 就 将 它 加 入 和 中 。 





@ ”从 技术 上 讲 ， 并 非 一 个 购物 篮 的 所 有 内 容 都 必须 在 过 去 1h 内 全 部 到 达 。 我 们 忽略 这 一 “边际 效应 ”， 并 假设 一 个 
购物 篮 的 所 有 元 组 要 么 全 部 出 现在 窗口 中 ,要 么 全 部 不 出 现在 窗口 中 。 
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但 是 ， 在 茶 些 时 刻 , 会 有 整数 离开 窗口 ， 需 要 从 和 中 减 去 。 如 果 窗 口 是 基 于 元 组 的 ， 每 当 新 
数据 到 达 时 ， 我 们 就 必须 从 和 中 减 去 最 老 的 那个 整数 。 如 果 窗 口 是 基于 时 间 的 ， 当 元 组 在 窗口 中 
的 时 间 超 出 这 一 范围 时 ， 必 须 从 和 中 减 去 。 

不 幸 的 是 ， 如 果 我 们 不 确切 地 知道 窗口 中 有 哪些 整数 ， 或 者 不 知道 数据 到 达 的 先后 顺序 (对 
于 基于 元 组 的 窗口 ) ， 或 者 到 达 时 间 ( 对 于 基于 时 间 的 窗口 ) ， 我 们 就 无 法 准确 地 维护 这 个 和 。 下 
面 给 出 了 不 能 压缩 窗口 数据 的 原因 。 只 要 进行 了 任何 压缩 ， 则 两 个 不 同 的 窗口 内 容 W, 和 瑟 ， 就 
必须 有 相同 的 压缩 值 。 由 于 WW 关 W,， 肯 定 会 存在 一 个 时 间 ,在 i 时刻 本 AW, 中 的 整数 不 相 
等 。 考 虑 一 下 当 i 是 窗口 中 最 老 的 时 间 ， 并 且 有 另 一 个 整数 到 达 时 ， 会 发 生 什么 事情 。 这 时 我 们 
就 必须 从 和 中 分 别 减 去 不 同 的 值 ， 来 维护 W, 和 W, 所 对 应 的 和 。 但 由 于 存在 压缩 ， 我 们 无 法 辨 
AW, AW, 中 哪个 内 容 是 准确 的 窗口 内 容 ， 在 两 种 情况 下 我 们 都 不 能 维护 正确 的 和 。 口 

例 12. 16 说 明 ， 如 果 任 何 时 刻 都 想得到 精确 的 和 ， 我 们 就 不 能 对 一 个 滑动 窗口 的 和 进行 压 
缩 。 但 如 果 我 们 能 够 接受 和 的 近似 值 ， 就 有 了 许多 可 选 方法 ， 这 里 就 有 一 个 非常 简单 的 方法 。 我 
们 将 数据 流 元 素 进行 分 组 ， 每 组 包括 100 个 元 素 。 即 数据 流 返回 第 1 组 100 个 元 素 ， 再 返回 第 2 
组 100 个 元 素 ， 依 此 类 推 ， 每 一 组 用 其 中 的 元 素 和 来 表示 。 这 时 ， 我 们 就 有 了 一 个 压缩 因子 
100， 即 对 于 理论 上 的 每 100 个 整数 ， 窗 口 实际 上 只 存 了 一 个 数 。 

为 简单 起 见 ， 假 设 我 们 有 一 个 基于 元 组 的 窗口 ， 窗 口中 的 元 组 数 是 100 的 倍数 。 当 所 到 达 的 
数据 流 元 素数 也 是 100 的 倍数 时 ， 我 们 将 每 组 的 和 加 起 来 ， 就 可 以 准确 地 计算 窗口 中 的 元 素 之 
和 。 假 设 某 时 刻 有 一 个 整数 到 达 窗 口 ， 这 个 整数 开始 了 一 个 新 组 ， 我 们 把 这 个 整数 本 身 作 为 这 一 
组 的 和 ， 现 在 我 们 只 能 通过 估计 来 得 到 窗口 的 和 。 原 因 是 由 于 新 整数 的 到 来 ， 导 臻 最 早 一 组 在 窗 
口中 仅 有 99 个 元 素 ， 且 我 们 不 知道 那 一 组 中 被 删除 的 那个 整数 值 。 

可 以 用 最 早 一 组 和 的 1% 作为 被 删除 数 的 最 好 估计 值 。 也 就 是 说 ， 我 们 将 所 记录 的 最 早 一 组 
的 和 的 99% ， 加 上 窗口 中 所 记录 的 其 他 组 的 和 ， 来 估计 窗口 中 所 有 整数 的 和 。 

接着 又 有 49 个 元 素 到 达 ， 最 晚 到 达 的 这 一 组 就 包含 了 50 个 整数 ， 此 时 最 早 一 组 仅 有 30 个 
元 素 保留 在 窗口 中 ,我 们 以 这 一 组 和 的 1/2 作为 这 50 个 元 素 的 和 的 最 好 估计 值 。 之 后 又 有 50 个 
元 素 到 达 ， 最 晚 这 一 组 就 完整 了 ， 最 早 那 一 组 所 有 元 素 被 全 部 删除 ， 我 们 就 可 以 删 去 所 记录 的 最 
早 一 组 的 和 ， 并 为 开始 下 一 个 新 组 做 好 准备 。 

直观 上 讲 ， 使 用 这 个 方法 能 够 “很 好 ”地 计算 和 的 近似 值 。 如 果 整 数 是 非 负 的 ， 并 且 整 数值 
波动 不 太 大 ， 以 组 和 的 平均 值 来 估计 被 删 掉 的 整数 ， 会 是 一 个 不 错 的 选择 。 但 如 果 整 数值 波动 很 
大 ， 或 者 整数 可 正 可 负 ， 所 得 的 估计 值 会 出 乎 意料 地 糟糕 。 如 果 整 数 的 范围 是 从 负 无 穷 到 正 无 
穷 ， 且 最 早 一 组 中 前 50 个 数 是 很 大 的 负数 ， 后 50 个 数 是 很 大 的 正 数 ， 所 对 应 的 组 和 为 0。 如 果 
某 一 时 刻 这 一 组 仅 有 50 个 元 素 在 窗口 中 ， 尽 管 实际 上 这 50 个 元 素 的 和 会 非常 大 ， 甚 至 比 数据 流 
中 紧 跟 其 后 的 所 有 元 素 的 和 还 大 ， 对 这 50 个 元 素 和 的 估计 也 将 会 是 0。 

我 们 可 以 对 这 一 压缩 方法 进行 诸多 形式 的 修改 。 例 如 ， 可 以 通过 增加 每 组 的 元 素 个 数 来 减 
少 表示 组 所 用 的 存储 空间 ， 不 过 这 样 做 会 加 大 估计 的 误差 。 下 一 节 ， 我 们 将 研究 二 进 制 数据 流 
(由 0 和 1 组 成 ) 的 有 效 压缩 问题 ， 并 将 误差 限制 在 一 定 范 围 内 。 如 果 我 们 将 每 一 个 整数 的 二 进 
制 表示 形式 看 作 一 个 二 进 制 位 数据 流 ， 我 们 就 可 以 将 上 述 方法 进行 扩展 ， 以 处 理 有 上 界 的 正 整 
数 数据 流 的 问题 (参看 习题 12. 5. 4) 。 


12. 5.2 统计 二 进 制 位 数 

在 这 一 节 ， 我 们 要 研究 如 下 的 问题 。 假 设 滑动 窗口 的 长 度 为 N， 数 据 流 由 0、1 组 成 ; 假定 
数据 流 在 过 去 的 某 个 时 刻 开始 返回 数据 ， 我 们 用 二 进 制 位 在 数据 流 中 的 位 置 来 表示 各 个 位 的 到 
达 时 间 ， 即 第 一 个 二 进 制 位 对 应 的 是 时 间 1， 下 一 位 对 应 的 是 时 间 2， 依 此 类 推 。 
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我 们 的 查询 是 “在 最 近 上 位 中 ， 有 多 少 个 1”, 上 是 1 到 范围 内 的 一 个 整数 ， 这 样 的 查询 可 
以 发 生 在 任何 时 间 。 如 果 不 对 窗口 进行 任何 压缩 ， 我 们 可 以 精确 地 回答 任何 这 样 的 查询 ， 尽 管 需 
要 对 最 近 的 位 求 和 才能 回答 。 在 值 很 大 的 情况 下 ， 查 询 本 身 会 耗 很 长 时 间 。 而 如 果 在 存储 二 
进 制 位 的 同时 ， 依 据 二 进 制 位 到 达 次 序 进行 分 组 ， 组 的 大 小 为 2、4、8，…， 这 样 我 们 可 以 将 精 
确 回 答 查 询 的 时 间 降 低 到 OC log N)。 但 如 果 我 们 将 这 些 组 的 和 也 存 起 来 ， 所 和 需 的 空间 将 比 存储 
窗口 元 素 本 身 还 要 大 。 

另 一 个 可 行 方法 是 以 六 的 对 数 形式 来 存储 窗口 信息 ， 并 能 够 回答 上 述 的 任意 查询 ， 并 且 误 
差 可 以 设 定 在 任意 小 的 范围 内 。 一 般 地 ， 对 于 任意 >0， 我 们 可 以 将 估计 值 与 准确 值 的 比 保持 
在 1-s 到 13+e 的 范围 内 。 我 们 将 给 出 = =172 时 所 对 应 的 方法 。 这 个 方法 可 以 推广 到 任意 e >0 
的 情况 ， 这 将 作为 一 个 习题 ， 并 附 有 提示 (参见 习题 12. 5. 3)。 

i 

为 了 便于 描述 对 1 的 个 数 进 行 估计 的 算法 ,我们 需要 定义 一 个 大 小 为 m 的 桶 ， 这 个 桶 是 窗 
口交 一部分， 并 包含 了 恰好 mm 个 1。 窗口 被 完全 划分 到 若干 个 这 样 的 桶 中 ,除了 一 些 0 不 属于 任 
Wio RITTAA, ORKER, m 是 桶 的 大 小 ，i 是 桶 中 最 近 的 1 到 达 的 时 间 。 用 桶 来 表示 
当前 窗口 ， 我 们 需要 遵循 如 下 规则 ; 

1. 每 一 个 桶 的 大 小 为 2 HF. 

2. 时 间 上 往 回 看 ， 桶 的 大 小 是 不 降 的 。 

3. HF m=1, 2，4，8 ，… 一 直到 最 大 的 桶 ， 相 同 大 小 的 桶 有 一 个 或 两 个 ， 而 不 会 是 零 个 
或 多 于 两 个 。 

4. 虽然 最 后 一 个 (最 大 的 ) 桶 可 能 有 一 部 分 已 经 超出 窗口 范围 ， 但 每 个 桶 都 是 在 当前 窗口 内 
开始 的 。 

图 12-13 描述 了 窗口 如 何 被 分 成 桶 。 


一 个 长 度 为 2 的 







部 分 超出 了 窗口 两 个 长 度 
两 个 长 度 为 8 的 | 两 个 长 度 为 4 的 为 1 的 
onororh oro 








N — 


图 12-13 ”滑动 窗口 被 分 成 桶 








桶 的 表示 
我 们 将 看 到 ， 在 这 些 假设 下 ， 一 个 桶 可 以 用 0(logN) 个 二 进 制 位 来 表示 ， 并 且 窗 口中 至 多 有 
0(logN) 个 桶 。 因 此 ， 一 个 长 度 为 N 的 窗口 就 可 以 用 0(log N) 个 二 进 制 位 来 表示 ， 而 不 是 O(N) 
个 二 进 制 位 。 原 因 如 下 : 
© 一 个 桶 (m, 可 以 用 0(logN) 个 二 进 制 位 来 表示 。 首 先 ， 桶 的 大 小 m 不 会 超过 N， 并 且 
m 是 2 的 宪 ， 因 此 我 们 不 需要 表示 严 本 身 ， 只 需要 表示 log,m， 这 需要 OCloglogN) fi. A 
一 方面 ， 我 们 还 需要 表示 #， 即 桶 中 最 近 的 1 所 到 达 的 时 间 。 原 则 上 ,上 可 以 是 任意 大 的 
整数 ， 但 由 于 上 一定 在 长 度 为 w 的 窗口 内 ， 我 们 仅 表 示 t modulo N 就 可 以 了 。 因 此 ， 用 
O(logN) 个 二 进 制 就 可 以 表示 m 和 1;。 因 此 ， 我 们 能 够 得 知 新 到 达 的 1 的 时 间 。 我 们 维护 
当前 时 间 ， 但 也 通过 对 N 取 余 来 表示 它 ， 因 此 0(logV) 个 二 进 制 位 就 是 够 用 了 。 
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。 桶 的 个 数 至 多 为 O(logN) 个 。 所 有 桶 的 大 小 之 和 至 多 为 N， 并 且 任 何 大 小 的 桶 至 多 有 两 
个 。 如 果 桶 的 个 数 多 于 2 +2log,N， 最 大 的 桶 的 大 小 至 少 为 2x2”， 即 2N， 这 时 一 定 有 
一 个 大 小 为 其 一 半 的 较 小 的 桶 ， 因 此 最 大 的 桶 就 会 完全 超出 窗口 范围 。 

使 用 桶 近似 地 回答 查询 

注意 ,我 们 可 以 近似 地 回答 关于 最 迫 位 中 1 的 个 数 的 查询 ， 如 下 所 述 。 找 出 桶 内 最 后 一 位 
到 达 时 间 在 内 的 最 早 的 那个 桶 BB，B 之 后 的 桶 全 在 时 闽 范围 内 ， 我 们 知道 这 些 桶 所 含 1 的 个 
数 为 桶 的 大 小 ， 而 桶 B 有 一 -部 分 在 查询 范围 内 ， 另 一 部 分 在 查询 范围 外 。 由 于 我 们 不 清楚 有 多 
少 在 查询 之 内 ， 多 少 在 查询 之 外 ， 我 们 用 桶 的 大 小 的 一 半 来 估计 。 

例 12.17 假设 k=N, 窗口 用 图 12-13 所 示 的 桶 来 表示 。 我 们 看 到 图 中 有 两 个 大 小 为 1 的 
桶 、 一 个 大 小 为 2 的 桶 ， 这 表示 有 4 个 1; 另外 ， 还 有 两 个 大 小 为 4 的 桶 ， 表 示 有 8 个 1; 两 个 大 
小 为 8 的 桶 ， 表 示 有 16 个 1; 最 后 一 个 大 小 为 16 的 桶 ， 有 一 部 分 在 窗口 内 ， 我 们 用 值 8 来 参与 
估计 。 因 此 近似 答案 为 2x1+1x2+2x4+2x8g+8=36。 口 

桶 的 维护 

在 新 的 二 进 制 位 到 来 时 ， 有 两 种 原因 使 桶 发 生 改 变 。 第 一 个 容易 解决 : 如 果 一 个 新 二 进 制 位 
到 达 ， 并 且 最 后 一 个 桶 中 有 一 个 最 近 的 位 ， 它 的 到 达 时 间 与 新 到 达 位 的 差 超过 和 NN， 则 我 们 可 以 丢 
弃 那 个 桶 。 因 为 这 样 的 桶 不 在 任何 查询 的 范围 内 。 

现在 ， 假 设 一 个 新 位 到 达 。 如 果 这 一 位 是 0， 不 会 有 桶 发 生 改 变 ， 除 了 上 面 提 到 的 对 桶 的 删 
除 操作 。 而 如 果 新 位 是 1， 我们 开始 用 一 个 大 小 为 1 的 新 桶 来 表示 这 一 位 。 我 们 这 时 也 许 会 有 3 
个 大 小 为 1 的 桶 ， 违 背 了 任意 大 小 的 桶 只 能 为 1 或 2 个 的 规则 。 因 此 ， 我 们 就 进入 了 递归 合并 桶 
的 阶段 。 : 

假设 我 们 有 3 个 相 邻 的 桶 大 小 都 为 m， 分别 用 (m， t), (n, t), (m, t,) RRM, h<t, < 
我 们 将 出 现 较 早 的 两 个 桶 (m，t) 和 (m，t,) 合并 为 一 个 长 度 为 2m 的 桶 ， 合 并 所 得 的 桶 的 时 
间 用 两 个 桶 中 稍 后 出 现 的 那个 桶 的 最 近 时 间 来 表示 。 也 就 是 说 ，(m, t,) Al(m, t) HAm, 
t) KRR 

如 果 合 并 前 已 经 有 两 个 长 度 为 2m 的 桶 ， 合 并 会 导致 有 3 个 相 邻 的 长 度 为 2m Wio Ak, 
我 们 递归 地 应 用 合并 算法 对 长 度 为 2m 的 桶 进行 合并 。 合 并 的 总 时 间 不 会 超过 O(logN). 

例 12. 18 假设 我 们 有 图 12-13 所 示 的 一 列 桶 ， 桶 的 大 小 依次 为 16、8、8、4、4、2、1、1。 
如 果 一 个 1 到 来 ， 就 有 了 3 个 大 小 为 1 的 桶 ， 我 们 需要 将 其 中 较 早 的 两 个 桶 进行 合并 ， 这 时 桶 序 
列 变 成 了 16、8、8、4、4、2、2、1。 由 于 合并 后 长 度 为 2 的 桶 只 有 两 个 ， 就 不 需要 递归 地 合并 
下 去 。 如 果 又 有 一 个 1 到 达 ， 不 需要 进行 桶 的 合并 ， 同 时 桶 序列 变 成 16、8、8、4、4、2、2 、1、 
1。 接 着 又 有 一 个 1 到 来 ， 这 时 我 们 就 必须 对 长 度 为 1 的 桶 进行 合并 ， 桶 的 序列 变 成 了 16、8、8、 
4、4、2、2、2、1。 这 时 长 度 为 2 的 桶 有 3 个 ， 所 以 我 们 递归 地 合并 其 中 稍 早 的 长 度 为 2 的 两 个 
桶 ， 桶 序列 变 成 了 16、8、8、4、4、4、2、1。 这 时 长 度 为 4 的 桶 变 成 了 3 个 ， 进 行 合 并 后 桶 序 
列 变 成 了 16、8、8、8、4、2、1。 接 着 需要 对 长 度 为 8 的 较 早 的 两 个 桶 进行 合并 ， 桶 序列 的 最 终 
BRA 16, 16, 8, 4, 2, ls 口 

误差 范围 

假设 为 了 回答 一 个 查询 ， 所 含 的 1 在 查询 范围 内 的 最 早 的 桶 的 大 小 为 m。 由 于 我 们 以 该 桶 的 
m/2 进行 统计 ， 误 差 不 会 超过 m/2。 准 确 答案 不 小 于 所 有 长 度 小 于 m 的 桶 的 长 度 和 ， 长 度 为 
m/2、m/4、m/8，…，1 的 桶 至 少 分 别 为 1 个 ,它们 的 和 为 m -~ 1。 因此 误差 率 至 多 为 (m/2)/ 
(m-1), HUF 50%. FXE, 我们 仔细 观察 会 发 现 ，50% 恰好 是 误差 上 限 。 原 因 是 ， 当 我 们 
估计 过 低 时 ( 即 最 早 那 个 桶 的 m 个 1 都 在 查询 范围 内 ) ， 误 差 率 不 会 超过 1/3; 如 果 我 们 估计 过 
高 ， 由 于 最 早 的 桶 至 少 有 一 个 1 要 在 查询 范围 内 ,估计 值 比 精确 值 高 至 多 为 (m/2) - 1， 而 不 是 
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m/2, HF (m/2) -1 小 于 m-1 的 一 半 ， 误 差 率 上 限 确 为 50% 。 


12.5.3 ”统计 不 同 元 素 的 个 数 

现在 我 们 来 考虑 另外 一 个 重要 的 问题 : 统计 一 个 数据 流 的 窗口 中 不 同 元 素 的 个 数 。 这 个 问 
题 有 诸多 应 用 ， 例 如: 

1. 我 们 经 常 通过 统计 一 个 月 内 有 多 少 个 不 同 的 用 户 访 问 网 站 ， 来 衡量 一 个 网 站 的 知名 度 。 
把 一 个 像 Yahoo! 那样 的 网 站 上 的 登录 看 作 一 个 数据 流 ， 并 假设 窗口 长 度 为 一 个 月 ， 我 们 想 统计 
有 多 少 个 不 同 的 登录 。 

2. 假设 有 一 个 疏 虫 正 检查 站 点 。 我 们 可 以 把 网 页 上 个 虫 所 访问 的 单词 序列 看 作 一 个 数据 流 。 
如 果 站 点 是 合法 的 ， 不 同 的 单词 数 不 会 太 高 ( 太 高 表示 单词 之 间 很 少 有 重复 ) ， 也 不 会 太 低 ( 太 低 
表示 单词 之 间 有 大 量 重复 ) ， 如 果 超 出 这 个 范围 ， 表 示 站 点 可 能 是 非法 的 ， 如 可 能 为 一 个 作 吉 
站 点 。 

要 精确 回答 如 上 问题 ， 我 们 必须 存储 整个 窗口 ， 并 对 窗口 进行 5 运算， 来 找 出 不 同 的 元 素 。 
但 我 们 并 不 需要 知道 不 同 的 元 素 具体 是 什么 ， 只 是 想 知 道 有 多 少 个 不 同 的 元 素 。 虽 然 必须 维护 
整个 窗口 来 进行 统计 ， 我 们 也 可 以 使 用 其 他 办 法 来 近似 地 进行 统计 。 下 面 的 方法 实际 上 计算 了 
整个 数据 流 中 不 同 的 元 素数 ， 而 非 针 对 一 个 有 限 窗 口 。 我 们 也 可 以 依据 需要 ， 周 期 性 地 重启 这 一 
过 程 ， 例 如 每 一 个 月 统计 一 次 不 同 的 访问 用 户 数 ， 或 者 每 当 访问 一 个 新 站 点 时 进行 统计 (来 统计 
不 同 的 单词 数 ) 。 

我 们 要 用 到 的 必要 工具 包括 变量 N,N 的 值 至 少 与 数据 流 中 不 同 的 元 素数 一 样 大 ， 还 包括 一 
个 散 列 函 数 h 用 于 将 一 个 元 素 映 射 为 logyN 个 二 进 制 位 。 我 们 维护 一 个 变量 尺 ，R 的 初始 值 为 0。 
当 每 一 个 数据 流 元 素 v 到 达 时 ， 要 做 如 下 工作 : 

1. 计算 h(v)。 

2. 用 > 表示 h(v) 的 尾部 0 的 个 数 。 

3. Wr >R, Hr WAAR. 

这 样 一 来 ， 迄 今 为 止 所 见 到 的 不 同 元 素 的 个 数 的 估计 值 为 2 ， 理 由 如 下 ， 

a) h(v) 的 尾部 至 少 有 i 个 0 的 概率 为 2…。 

b) 如 果 迄 今 为 止 数据 流 中 有 m 个 不 同 的 元 素 ， 则 尺 >i 的 概率 为 (1 -27')"。 

c) 如 果 i 远 比 log,m 小 ， 这 个 概率 会 接近 于 1; WMR iE lom 大 ， 这 个 概率 会 接近 于 0。 

d) 因此 ，R 通常 接近 于 log,m， 我 们 的 估计 值 2* 通常 会 接近 于 m。 

虽然 上 面 的 推理 看 似 合理 ， 实 际 上 推理 出 的 结果 却 不 准确 。 原 因 在 于 ,假定 N 是 有 限 的 ， 
所 设想 的 结果 2" 却 是 无 限 的 ， 至 少 大 得 出 乎 意料 。 直 观 上 看 ， 对 于 一 个 很 大 的 值 R， 每 当 尺 番 
一 香 时 ，R 值 很 大 的 概率 就 会 减 半 ， 但 R 的 值 在 成 倍增 加 ， 所 以 的 每 一 个 可 能 的 值 对 所 期 望 的 
值 的 影响 是 相同 的 。 

因此 有 必要 注意 这 一 事实 : R 的 值 会 偶尔 变 得 很 大 ， 以 至 于 对 m 的 估计 会 往 上 发 生 偏 斜 。 
尽管 我 们 不 准备 给 出 精确 的 证 明 ， 却 可 以 采取 以 下 办 法 来 避免 偏 斜 : 

1. 使 用 不 同 的 散 列 函 数 ， 对 R 进行 多 次 估计 。 

2. 将 这 些 估 计 值 分 成 小 组 ， 取 每 组 的 中 值 。 这 样 做 就 会 减少 尺 偶 尔 变 大 所 带 来 的 影响 。 

3. 取 每 组 中 值 的 平均 值 。 


12. 5.4 习题 


习题 12. 5.1 从 图 12-13 所 示 的 窗口 开始 ， 假 设 下 面 将 要 到 达 的 16 位 都 是 1。 怎样 表达 对 应 的 桶 序列 ? 
习题 12. 5. 2 假设 在 图 12-13 H, AW BOE k PAZLA”, k 值 分 别 为 a)12; b)20; c)30, BAF 
这 3 种 情况 下 的 查询 ， 需 要 用 到 哪些 桶 ? 3 种 情况 下 的 估计 值 分 别 是 什么 ? 这 些 估计 值 的 精确 程度 又 是 怎 
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样 的 ? 

! 习题 12. 5. 3 ”我 们 可 以 修改 12. 5. 2 节 中 的 算法 ,使 每 个 桶 的 大 小 都 是 2 的 矫 ， 同 一 大 小 的 桶 的 个 数 介 于 p 
和 p+1 之 间 ，p 宕 1。 类 似 于 前 面 所 提 到 的 ， 从 时 间 上 往 回 推 ， 桶 的 大 小 是 不 减 的。 

a) 给 出 当 同 一 大 小 的 桶 太 多 时 合并 桶 的 递归 规则 。 
b) 证 明 这 个 方法 的 误差 率 至 多 是 1/2p。 

! 习题 12. 5. 4 ”假设 我 们 有 一 个 数据 流 ， 由 0 到 2 -1 范围 内 的 整数 构成 。 怎 样 修改 12. 5.2 节 所 介绍 的 方 
法 ， 来 估计 大 小 为 N 的 窗口 中 的 整数 和 ， 并 且 误 差 不 超 过 50%? 提示 : 将 表示 每 一 个 整数 的 16 位 二 进 制 
位 看 作 分 别 的 数据 流 。 

习题 12. 5. 5 假设 对 于 一 个 由 整数 组 成 的 数据 流 ， 我 们 想 估计 其 中 有 多 少 个 不 同 的 值 ， 整 数 的 范围 是 0 到 
1023 。 我 们 分 别 使 用 如 下 的 散 列 函 数 ， 将 整数 散 列 到 9 位 整数 。 
a) h,(v) =v +59 modulo 512, 
b) h,(v) =v +241 modulo 512, 
c) h,(v) =v +457 modulo 512, 
分 别 用 上 面 的 散 列 函数 ， 估 计 如 下 数据 流 中 不 同 值 的 个 数 : 
24, 45, 102, 24, 78, 222, 45, 24, 670, 78, 999, 576, 222, 24 
习题 12. 5.6 在 例 12. 11 中 ,我 们 注意 到 ， 对 于 由 (时 间 ， 温 度 ) 元 组 组 成 的 滑动 窗口 ， 如 果 我 们 只 希望 得 
到 六 个 温度 中 的 最 大 值 ， 那 么 在 元 组 上 到达 窗口 时 ， 我们 可 以 立即 删 掉 1 之 前 所 记录 的 小 于 + 的 元 组 。 
la) 这 个 方法 是 否 在 任何 情况 下 都 可 以 压缩 窗口 中 的 数据 ? 
Wb) 假设 我 们 统一 地 在 一 个 固定 的 实数 范围 内 随机 选取 数据 ， 来 作为 温度 。 平 均 会 有 多 少 元 组 被 保留 在 窗 
口中 ? 结果 用 六 来 表示 。 


12.6 小结 


。 RRIF: 在 一 个 搜索 引擎 中 ， 通 过 假 虫 来 搜集 网 页 信息 ， 并 使 用 查询 引擎 来 回答 搜索 
查询 。 

。 kek: 一 个 息 虫 使 用 一 个 或 多 个 进程 ， 来 访问 Web 页 面 和 网 页 中 的 链接 。 扑 忠 必须 将 已 
经 访问 过 的 网 页 放 在 网 页 库 中 ， 这 样 不 会 过 于 频繁 地 访问 相同 网 页 。 可 以 用 shingling 和 
最 小 散 列 来 检测 是 否 相 同 的 网 页 对 应 着 不 同 的 URL, 

© RRR: 通常 情况 下 ， 扑 虫 会 限制 仆 取 的 深度 ， 拒 绝 访问 相对 于 根 网 页 或 开始 的 网 页 
太 远 的 链接 ; 也 可 以 对 搜索 进行 优先 级 设置 ， 以 优先 访问 那些 可 能 很 受 欢 迎 的 网 页 。 

。 准备 将 爬 取 所 得 的 网 页 用 于 搜索 : 搜索 引擎 在 所 搜集 的 网 页 上 依据 单词 建立 倒 排 索引 。 
索引 中 也 可 以 记录 单词 在 网 页 中 的 作用 (例如 ， 单 词 是 否 是 标题 的 一 部 分 ?) ， 每 个 单词 
的 索引 可 以 表示 为 位 向 量 ， 用 以 说 明 单 词 在 哪些 网 页 中 出 现 。 

e 回答 搜索 查询 : 通常 ， 一 个 搜索 查询 由 一 组 单词 组 成 ,查询 引擎 使 用 倒 排 索引 来 找 包 含 
那些 单词 的 网 页 。 之 后 ， 使 用 公式 来 对 网 页 进行 排名 。 不 同 的 搜索 引擎 有 不 同 的 公式 。 
如 果 网 页 中 那些 搜索 单词 离 得 较 近 ， 或 者 搜索 单词 出 现在 网 页 的 重要 位 置 ， 网 页 排名 会 
比较 靠 前 。 一 般 使 用 类 似 于 PageRank 的 标准 来 找 重 要 的 网 页 。 

© WEB 转移 矩阵 : 对 于 估计 Web 页 面 的 重要 性 ， 和 矩阵 是 一 个 重要 的 分 析 工 具 。 每 一 个 网 页 
对 应 于 一 行 和 一 列 。 如 果 网 页 7 有 个 链 出 ， 其 中 有 一 个 指向 网 页 ;， 那 么 在 第 ; 行 ， 网 页 
了 所 对 应 的 列 值 是 1/r， 其 他 情况 下 值 为 0。 

。 PageRank; Web 页 面 的 PageRank 是 Web 转移 矩阵 的 重要 的 特征 向 量 。 对 于 nn 个 网 页 ， 我 
们 使 用 一 个 长 度 为 二 的 向 量 ， 不 断 地 用 向 量 的 当前 值 去 乘 转移 和 矩阵， 来 计算 PageRank 
向 量 。 

e PageRank 中 的 征 税 问题 (Taxation of PageRank): 由 于 Web 中 有 死角 (网 页 没有 链 出 ) AE 
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虫 陷阱 (到 达 后 就 无 法 离开 的 那 部 分 Web 页 面 ) 等 人 为 因素 ， 于 是 引入 了 对 PageRank 征 
税 的 方法 ， 例 如 税率 为 15% ， 拖 阵 和 向 量 之 间 的 每 一 次 相 乘 ， 都 会 将 这 一 税率 平等 地 重 
新 分 配 到 所 有 网 页 。 

远 距离 移动 集 ; 在 计算 PageRank 的 每 一 次 选 代 时 ， 不 将 税率 平等 地 重新 分 配 到 所 有 网 
页 ， 而 仅 分 配给 一 个 网 页 子 集 ， 我 们 称 之 为 远 距离 移动 集 (teleport set) 。 这 样 一 来 ， 在 计 
算 PageRank 时 实际 上 模拟 了 一 个 漫步 者 在 Web 图 上 漫步 ， 漫 步 者 从 当前 网 页 中 随机 选择 
一 个 链 出 作为 下 一 步 的 对 象 ， 但 同时 有 一 个 很 小 的 概率 使 它 选 择 远 距 离 移动 集中 的 任意 
网 页 。 

主题 相关 的 PageRank: 远 距 离 移动 集 思 想 的 一 个 应 用 是 ， 挑 选 与 菜 个 主题 相关 的 网 页 作 
为 远 距离 移动 集 。 这 样 一 来 ，PageRank 不 仅 综合 衡量 了 网 页 的 重要 程度 ， 还 衡量 了 网 页 
与 所 选 主题 的 相关 程度 。 

链接 作 产 :作弊 者 制作 大 量 的 Web 页 面 ， 唯 一 的 目的 是 提高 目标 网 页 的 PageRank， 以 使 
搜索 引擎 更 有 可 能 列 出 它们 。 一 个 打击 方法 是 使 用 远 距 离 移动 集 来 计算 PageRank, ， 远 距 
离 移动 集 由 可 信任 网 页 ( 指 那些 不 可 能 作弊 的 网 页 ) 组 成 。 

数据 流 ; 一 个 数据 流 是 到 达 特 定位 置 的 元 组 所 组 成 的 序列 ， 由 于 到 达 速 度 快 ， 很 难 整体 
地 处 理 和 存储 数据 流 。 来 自 人 造 卫星 的 数据 和 在 一 个 Web 站 点 的 请 求 点 击 都 可 以 组 成 数 
据 流 。 

数据 流 管理 系统 : DSMS 接收 数据 流 形式 的 数据 ， 并 维护 工作 存储 区 和 永久 (存档 ) 存储 
区 。 虽 然 工 作 存储 区 也 会 涉及 磁盘 ， 但 它 的 大 小 是 有 限制 的 。DSMS 既 支持 数据 流 的 即席 
查询 ， 也 支持 常 驻 查询 。 

滑动 窗口 : 将 数据 流 的 一 部 分 看 作 一 个 关系 ， 会 有 助 于 数据 流 的 查询 。 滑 动 窗口 包含 数 
据 流 中 最 近 到 达 的 那 部 分 数据 。 窗 口 可 以 是 基于 时 间 的 一 包括 固定 长 度 时 间 段 内 的 到 
达 的 所 有 元 组 ， 也 可 以 是 基于 元 组 的 一 一 最 近 到 达 元 组 的 固定 个 数 。 

。 压缩 窗口 : 如 果 DSMS 针对 许多 数据 流 都 有 很 大 的 窗口 ， 就 有 可 能 耗 尽 内存 ， 甚 至 . 
耗 尽 磁盘 。 可 以 依据 对 应 于 窗口 会 有 什么 类 型 的 查询 ， 来 压缩 窗口 ， 以 大 大 减少 所 
占有 的 存储 空间 。 但 在 许多 情况 下 ， 只 有 能 够 接受 查询 的 估计 值 ， 我 们 才能 够 压缩 
窗口 。 

统计 二 进 制 位 : 在 空间 /精度 间 进 行 平 衡 的 一 个 基础 性 问题 ， 是 计算 位 数据 流 所 对 应 的 窗 
口中 1 出 现 的 次 数 。 我 们 可 以 将 窗口 划分 为 桶 ， 按 照 指数 形式 来 记录 1 的 个 数 。 最 后 一 
个 桶 可 能 会 有 一 部 分 超出 窗口 范围 ， 导 致 不 能 精确 地 统计 1 的 个 数 ， 但 错误 率 会 限制 在 
一 个 固定 的 比值 内 ， 并 且 可 以 是 任意 的 e>0。 

统计 有 多 少 个 不 同 的 元 素 : 另 一 个 重要 的 数据 流 问 题 是 ， 统 计数 据 流 中 不 同 值 的 个 数 ， 
并 且 不 必 保存 所 有 已 到 达 的 不 同 的 值 。 可 以 使 用 一 个 散 列 函 数 来 进行 无 偏 佑 计 ， 散 列 函 
数 将 元 素 映 射 为 二 进 制 位 串 ， 用 2 的 宕 来 估计 不 同 值 的 个 数 ， 寡 中 的 指数 部 分 是 经 过 散 
列 函 数 映射 后 所 得 的 值 的 末尾 连续 的 0 的 最 大 数 。 
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